zhoubl668

汉语自动分词研究评述

汉语自动分词研究评述

【作者】孙茂松/邹嘉彦
【作者简介】孙茂松，清华大学
邹嘉彦，香港城市大学
孙茂松，100084　北京.清华大学计算机系　Email:lkc-dcs＠mail.tsinghua.edu.cn
邹嘉彦，香港　香港城市大学　语言资讯科学研究中心
【内容提要】本文首先阐述了汉语自动分词研究的现实性和可能性，接着围绕该研究中的三个基本问题（切分歧义消解、未登录词处理和语言资源建设）展开了重点讨论，并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些个人意见。
【关键词】中文信息处理/汉语自动分词/切分歧义消解/未登录词处理/语言资源建设
【正文】

1.汉语自动分词的现实性与可能性
众所周知，中文文本没有类似英文空格之类的显式表标示词的边界标志。汉语自动分词的任务，通俗地说，就是要由机器在中文文本中词与词之间自动加上空格。一提到自动分词，通常会遇到两种比较典型的质疑。一种质疑是来自外行人的：这件事看上去平凡之极，好像一点儿也不“热闹”，会有什么用呢？另一种质疑则是来自内行人的：自动分词研究已经紧锣密鼓地进行了十几年了，可到现在也未见一个经得起考验的系统推出来（与此形成鲜明对照的是，日语同样也存在分词问题，但已经有了圈内人士广泛认同的日语分词系统），这几乎成了中文信息处理中一个“永恒”的话题，那么，到底还有没有希望搞出真正意义上的“门道”来？
第一种质疑关心的是自动分词的现实性问题，其答案是十分明确的。当前的大环境令人鼓舞：中国正在向信息化社会迅速前进，其突出表征是Internet上中文网页的急剧增加和中文电子出版物、中文数字图书馆的迅速普及。以非受限文本为主要对象的中文自然语言处理研究于是也水涨船高，重要性日益显著。而汉语自动分词是任何中文自然语言处理系统都难以回避的第一道基本“工序”，其作用是怎么估计都不会过分。只有逾越这个障碍，中文处理系统才称得上初步打上了“智能”的印记，构建于词平面之上的各种后续语言分析手段才有展示身手的舞台。否则，系统便只能被束缚在字平面上，成不了太大气候。具体来说，自动分词在很多现实应用领域（中文文本的自动检索、过滤、分类及摘要，中文文本的自动校对，汉外机器翻译，汉字识别与汉语语音识别的后处理，汉语语音合成，以句子为单位的汉字键盘输入，汉字简繁体转换等）中都扮演着极为重要的角色（Wu Z.M.and Tseng G.1993;Wu Z. M.　 andTseng G.1995; Nie J.Y.and Brisebois M.et al.1996;Sun M. S. andLin F.Z.,et al.1996）。我们举两个例子直观说明一下。
［文本检索］
设文本A含句子（1a）而文本B含句子（1b）：
（1）a.和服│务│于三日后裁制完毕，并呈送将军府中。
　　 b.王府饭店的设施│和│服务│是一流的。
显然，文本A讲的是日本“和服”，文本B则与酒店的“服务”有关，两者风马牛不相干。如果不分词或者“和服务”分词有误，都会导致荒谬的检索结果。
［文语转换］
注意句子（2a）、（2b）中的“查金泰”：
（2）a.他们是来│查│金泰│撞人那件事的。
　　 b.行侠仗义的│查金泰│远近闻名。
句子（2a）中“查”为动词，应读cha，句子（2b）中则为姓氏，应读zha。
第二种质疑直指自动分词的可能性问题。虽然迄今为止我们尚不能下一个完全肯定的结论，但经过圈内学者十几年不懈的探索，这个答案的轮廓还是大体凸显出来了。毕竟词平面上的研究与句法平面和语义平面相比照，本身难度要小得多，并且无论是在计算语言学方面还是在普通语言学方面，所取得的成果也要成熟、扎实得多。现有的工作积累已经达到了可以厚积薄发的程度。如果说面向非受限文本的汉语句法、语义自动分析还是可望而不可即的话，那么，面对相同对象的汉语自动分词，则距凯歌初奏只有几步之遥了（当然即使达到了那个目标，也还不是功德圆满）。Sproat R. and Shih C.L.,et al.（1996）及Sun M. S.and Shen D.Y.,et al.（1997 ）的汉语自动分词原型系统已初具处理非受限文本所需的种种功能，他们沿着正确方向跨了一大步。
本文的重点是第2节，将集中讨论汉语自动分词中的基本问题，并扼要评介十几年来产生的各种方法（文后的参考文献基本囊括了这一领域比较有代表性的论文）。第3 节则就今后的研究要点发表一些个人意见。

    2.汉语自动分词中的基本问题和主要解决方法
    2.1切分歧义及其处理方法
2.1.1切分歧义的基本类型
切分歧义是汉语自动分词研究中的一个“拦路虎”。梁南元（1987）最早对这个现象进行了比较系统的考察。他定义了两种基本的切分歧义类型：
定义1　汉字串AJB被称作交集型切分歧义，如果满足AJ、JB同时为词（A、J、B分别为汉字串）。此时汉字串J被称作交集串。
［例］交集型切分歧义：“结合成”
（3）a.结合│成
　　 b.结│合成
其中A＝“结”，J＝“合”，B＝“成”。
定义2　汉字串AB被称作多义组合型切分歧义，如果满足A、B、 AB同时为词。
［例］多义组合型切分歧义：“起身”
（4）a.他站│起│身│来。
　　 b.他明天│起身│去北京。
对交集型切分歧义，他还定义了链长：
定义3　一个交集型切分歧义所拥有的交集串的集合称为交集串链，它的个数称为链长。
如，交集型切分歧义“结合成分子”、“结合”、“合成”、“成分”、“分子”均成词，交集串的集合为｛“合”，“成”，“分”｝，链长为3。
这些定义所涉及的几个概念，基本刻画了汉语切分歧义的结构特点，因而一直沿用下来。
梁南元（1987）对一个48,092字的自然科学、社会科学样本进行了统计：交集型切分歧义518个，多义组合型切分歧义42个。据此推断，中文文本中切分歧义的出现频度约为1.2次／100字，交集型切分歧义与多义组合型切分歧义的出现比例约为12∶1。
有意思的是，刘挺、王开铸（1998）的调查却显示了与梁南元截然相反的结果：中文文本中交集型切分歧义与多义组合型切分歧义的出现比例约为1∶22。造成这种情形的原因在于，定义2有疏漏。Sun M.　S.and Benjamin K.T.（1995）猜测，加上一条限制才真正反映了梁的本意：
定义2'汉字串AB被称作多义组合型切分歧义，如果满足（1）A、 B、AB同时为词；（2）中文文本中至少存在一个前后语境C，在C 的约束下，A、B在语法和语义上都成立。
例如，汉字串“平淡”符合定义2，但不符合定义2' （因为“平│淡”在文本中不可能成立）。刘、王将“平淡”计入了多义组合型切分歧义，梁并未计入。由于符合定义2 的汉字串数量远远大于符合定义2'的汉字串数量，出现“乾坤颠倒”也就不足为怪了。
仔细分析一下，定义1和定义2都是完全从机器角度加以形式定义的，定义2'则增加了人的判断。孙茂松、黄昌宁等（1997）认为，定义2中给出的名称“多义组合型切分歧义”是不太科学的（实际上，某些交集型切分歧义也是多义组合的），易引起混淆，与“交集型”这个纯形式的名称相呼应，称作“包孕型”或者“覆盖型”可能更恰当。
董振东（1997）采用了另外一套名称：称交集型切分歧义为“偶发歧义”，称多义组合型切分歧义为“固有歧义”。“两者的区别在于：造成前者歧义的前后语境是非常个性化的、偶然的、难以预测的”，“而后者是可以预测的”。这个表述相当深刻地点出了两类歧义的性质，耐人寻味。但名称的准确性仍有可斟酌之处。

　　　　　　　视角　真歧义类　　　　　　伪歧义类
交集型切分歧义定义　　　　　　　定义1
　　　　　　　性质　　　　　　偶发歧义
　　　　　　　数量　少量　　　　　　　　大量
　　　　　　　例子　地面积,和平等,的确定和软件,在建设,部门对
覆盖型切分歧义定义　定义2'　　　　　　　定义2扣除定义2'的外延
　　　　　　　性质　固有歧义　　　　　　偶发歧义
　　　　　　　数量　少量　　　　　　　　大量
　　　　　　　例子　起身,把手,一行,三角　平淡,高度,词条,结论

　　　　表1　切分歧义类型表
       孙茂松、左正平（1998）指出，切分歧义应进一步区别“真切分歧义”和“伪切分歧义”。譬如：同属交集型，“地面积”为真歧义（“这几块│地│面积│还真不小”“地面│积│了厚厚的雪”），“和软件”则为伪歧义（虽然存在两种不同的切分形式“和软│件”和“和│软件”，但在真实文本中，无一例外地应被切分为“和│软件”）；同属覆盖型，“起身”为真歧义，“平淡”则为伪歧义。
    归纳以上论述，本文整理出一张切分歧义类型表（见表1），希望对澄清概念上流传已久的混乱有所帮助。
    关于切分歧义，还有两点基本观察：
1）根据孙茂松、左正平（1998）对一个1亿字语料库的穷尽式统计，交集型切分歧义长度变化范围为3～14 个字（“提高人民群众生活水平息息相关”），交集串长度变化范围为1～3个字（“如箭在弦上”），链长变化范围为1～9个字（“中国人民生活水平和美化”）；
2）交集型和覆盖型常常会相互纠缠在一起，这就更增加了变数。如图1中的“提高人民生活水平”共可衍生出19 种可能的形式切分（弧线表示可成词）。
附图
图1　若干基本类型的混合
2.1.2　切分歧义的检测与消解
切分歧义处理包括两部分内容：（1）切分歧义的检测；（2）切分歧义的消解。这两部分在逻辑关系上可分成两个相对独立的步骤。
   首先谈谈切分歧义的检测问题。“最大匹配法”（精确的说法应该叫“最长词优先匹配法”）是最早出现、同时也是最基本的汉语自动分词方法，1963年就在《文字改革》杂志上被介绍过（刘涌泉1988）。刘源、梁南元（1986）首次将这个方法大规模应用到汉语自动分词系统中。依扫描句子的方向，又分正向最大匹配MM（从左向右）和逆向最大匹配RMM（从右向左）两种。最大匹配法实际上将切分歧义检测与消解这两个过程合二为一，对输入句子给出唯一的切分可能性，并以之为解。据梁南元（1987）的实验结果，在词典完备、没有任何其它知识的条件下，最大匹配法的错误切分率为1次／169字～1次／245字，并且具有简单、快速的优点。Guo J.（1997）更对最大匹配法的工作原理作了严格的形式解释。此外，揭春雨、刘源等（1989）比较完整地分析了最大匹配法的结构及其时间效率。
    从最大匹配法出发导出了“双向最大匹配法”，即MM＋ RMM。SunM.S. and Benjamin K.T.（1995）注意到：汉语文本中90.0％左右的句子，MM和RMM的切分完全重合且正确，9.0％左右的句子MM和RMM 切分不同，但其中必有一个是正确的（歧义检测成功），只有不到1.0 ％的句子，或者MM和RMM的切分虽重合却是错的，或者MM和RMM切分不同但两个都不对（歧义检测失败）。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。
     显然，双向最大匹配法存在着切分歧义检测盲区。针对切分歧义检测，另外两个有价值的工作是，王晓龙、王开铸等（1989）的“最少分词法”（歧义检测能力较双向最大匹配法要强些，产生的可能切分个数仅略有增加）和马晏（1996）的“全切分法”（穷举所有可能切分，实现了无盲区的切分歧义检测，但代价是导致大量的切分“垃圾”）。这个问题直到今天也没有完全解决——如果把双向最大匹配法视作一个极端（最简单）而全切分法视作另一个极端（最繁杂）的话，我们的目标应该是：在这两极之间寻找一个“删繁就简”的折衷方案，既（几乎）排除了检测盲区，又抑制了可能切分个数的无理膨胀。
      接下来讨论切分歧义的消解问题。十几年来，研究人员几乎调动了人工智能领域所有“时髦”的计算手段来对付切分歧义，堪称“八仙过海，各显神通”。典型的手段包括：“松弛法”（Fan C.K. and　Tsai W. H. 1988），“扩充转移网络”（黄祥喜1989）， “短语结构文法”（梁南元1990；姚天顺、张桂平等1990；Yeh C.L. and Lee　H.　J. 1991；韩世欣、王开铸1992），“专家系统”（徐辉、何克抗等1991），“神经网络”（徐秉铮、詹剑等1993 ）， “有限状态自动机”（Sproat R. and Shih C.L., et al. 1996），“隐Markov 模型”（LaiB.Y. and Sun M.S., et al. 1997；沈达阳、孙茂松等1997a；孙茂松、左正平等1999a），“Brill式转换法”（Palmer D.D.1997）等。这些新的探索体现了切分歧义消解计算的不同侧面，在一定范围内取得了各自的效果，但从总体上看，还都嫌粗糙；或者虽然研究比较充分，但模型本身的计算能力偏弱；或者仅仅搭起了一个框架，浅尝辄止；或者实验规模太小，说服力不足。
    通过不断的实践，人们越来越深刻地认识到，如果没有足够的语言知识作为支撑，再先进的计算手段也只能是“银样蜡枪头——中看不中用”。切分歧义消解经历了一个由浅及深、由简单到复杂的语言知识利用的演变过程：
1 ）一些系统（尤其是早期系统）主要利用词频以及语素（自由抑或约束）、切分歧义表层结构等简单信息（Fan C.K. and Tsai W.　H.1988；李国臣、刘开瑛等1988；王永成、苏海菊等1990；Chen　K.　J.and Liu S.H. 1992；马晏1996）。
2）Sun M.S. and Lai B.Y., et al. (1992) 揭示了音节信息在自动分词中的作用。
3）何克抗，徐辉等（1991）断言，95.0 ％左右的切分歧义可以借重句法以下的知识解决，只有5.0％必须诉诸语义和语用知识。基于规则的几个分词系统（黄祥喜1989；梁南元1990；姚天顺、张桂平等1990；Yeh C.L. and Lee H.J.1991；韩世欣、王开铸1992；徐辉、何克抗等1991）都自觉或不自觉地受到这个结论的支配，切分歧义消解主要诉诸词法与句法规则。存在的缺陷是，规则集由人凭主观编制而成，会受到系统性、有效性、一致性、可维护性等“天然”问题困扰。
    4）为克服人工句法规则集的弊端，一些研究人员开始尝试另一种途径一句法统计。Lai B.Y. and Sun M.S., et al.(1992;　1997) 、Chang C.H. and Chen C.D.(1993)、白拴虎（1995）等将自动分词和基于Markov链的词性自动标注技术结合起来，利用从人工标注语料库中提取出的词性二元统计规律来消解切分歧义（词性标注对分词有反馈作用，两者并行）。初步实验（Lai B.Y.and Sun M.S., et al.1997）表明，同“先做最大匹配分词，再作词性自动标注”（词性标注对分词无反馈作用，两者串行）相比，这种做法的分词精度和词性标注精度分别提高了1.3％和1.4％。
（5）他俩儿谈恋爱是从头年元月开始的。
切分a.…　是　│　从头　│　年　 │　元月　│　…
　　　　动词　　　副词　　时间量词　时间词
切分b.…　是　│　从　│　头年　 │　元月　│　…
　　　　动词　　介词　　时间词　　时间词
虽然“从头”、“年”的词频之积大于“从”、“头年”的词频之积，但词性序列“动词＋副词＋时间量词＋时间词”的概率远小于“动词＋介词＋时间词＋时间词”的概率，所以选择切分b作为结果。
5）Wu A.D. and Jiang Z.X.(1998)走得更远。他们相信，多数情况下，切分歧义可以在输入句子的局部范围内得到妥善处理，但有些比较复杂的切分歧义，必须在句中更大的范围内才能解决。当遇到这种情况时，他们的系统将对句子做完整的句法分析，如果分析失败，则拒绝相应的切分：
（6）在这些企业中国有企业有十个。
切分a.在│这些│企业│中│国有│企业│有│十│个│。
切分b.在│这些│企业│中国│有│企业│有│十│个│。
切分b得不到可信的句法树，因而被拒绝。
当然，分析的层次越深，机器对知识库质量、规模等的依赖性就越强，所需要的时间、空间代价也就越大（况且面向真实文本的汉语句法分析器在可预期的将来几乎没有实现的可能，这也是应予考虑的因素）。有时不免使人产生一种陷入因果循环般的困惑：消解切分歧义这一相对“简单”的任务似乎不得不倚仗比分词本身困难得多的句法分析才得以完成。这个“悖论”里面其实蕴涵着深刻的“潜台词”，对中文自然语言处理系统的设计很有启发，囿于篇幅，这里就不展开了。
    另一个值得一提的工作是，孙茂松、左正平等（1999b）发现，从一个1亿字真实汉语语料库中抽取出的前4，619 个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20 ％（它们对另一个完全独立的语料库的覆盖率为50.85％，说明高频交集型切分的分布相对不同的领域是比较稳定的），其中4，279个属伪歧义（如“和软件”、“充分发挥”、“情不自禁地”），覆盖率高达53.35％。鉴于伪歧义的消解与上下文无关，于是他们提出了一个简单却很有效的策略：对伪歧义型高频交集型歧义切分，可以把它们的正确（唯一）切分形式预先记录在一张表中，其歧义消解通过直接查表即可实现。本质上，这是一个基于记忆的模型。
    2.2未登录词及其处理
未登录词大致包含两大类：1）新涌现的通用词或专业术语等；2）专有名词，如中国人名、外国译名、地名、机构名（泛指机关、团体和其它企事业单位）等。前一种未登录词理论上是可预期的，能够人工预先添加到词表中（但这也只是理想状态，在真实环境下并不易做到）；后一种未登录词则完全不可预期，无论词表多么庞大，也无法囊括。
孙茂松、邹嘉彦（1995）指出，真实文本中（即便是大众通用领域），未登录词对分词精度的影响超过了歧义切分。未登录词处理在实用型分词系统中占的份量举足轻重。
对第一种未登录词的处理，一般是在大规模语料库的支持下，先由机器根据某种算法自动生成一张候选词表（无监督的机器学习策略），再人工筛选出其中的新词并补充到词表中。鉴于经过精加工的千万字、甚至亿字级的汉语分词语料库目前还是水月镜花，所以这个方向上现有的研究无一不以从极大规模生语料库中提炼出的n元汉字串之分布（n≥2）为基础。Sproat R. and Shih C.L. (1993) 借用信息论中的“互信息”定量描述任意两个汉字之间的结合力。Sun M.S. and Shen D.Y.,et al. (1998)沿这个思路前进了一步，提出了汉字间t- 测试差的概念作为互信息的有益补充。黄萱菁、吴立德等（1996）则引入经典统计论中的“四分联立表”及检验联立表独立性的皮尔逊x[2]－统计量，对长度分别为2字、3字和4字的任意汉字串做内部关联性分析，继而获得候选词表。Nie J.Y. and Jin W.Y., et al.(1994) ，刘挺、吴岩等（1998）的工作仅利用了相对简单的字串频信息。这里提到的几个统计量（互信息、t-测试差、x[2]－统计量、字串频）都是依赖于极大规模语料库的，孙茂松、邹嘉彦（1995）故而称之为全局统计量。
处理第二种未登录词的做法通常是：首先依据从各类专有名词库中总结出的统计知识（如姓氏用字及其频度）和人工归纳出的专有名词的某些结构规则，在输入句子中猜测可能成为专有名词的汉字串并给出其置信度，之后利用对该类专有名词有标识意义的紧邻上下文信息（如称谓），以及全局统计量和局部统计量（参见下文），进行进一步的鉴定。已有的工作涉及了四种常见的专有名词：中国人名的识别（张俊盛、陈舜德等1992；宋柔、朱宏等1993；孙茂松、黄昌宁等1995）、外国译名的识别（孙茂松、张维杰1993）、中国地名的识别（沈达阳、孙茂松1995）及机构名的识别（Chen H.H. and Lee J.C. 1994；张小衡、王玲玲1997）。从各家报告的实验结果来看，外国译名的识别效果最好，中国人名次之，中国地名再次之，机构名最差。而任务本身的难度实质上也是循这个顺序由小增大。
沈达阳、孙茂松等（1997b ）特别强调了局部统计量在未登录词处理中的价值。局部统计量是相对全局统计量而言的，是指从当前文章得到且其有效范围一般仅限于该文章的统计量（通常为字串频）。孙茂松、邹嘉彦（1995）通过下例演示了局部统计量的功效：
（7）河南会员冯俊发愿无偿赠送百日红1000株。
切分a.河南│会员│冯俊发│愿│无偿│赠送│百日红│1000│株│。
切分b.河南│会员│冯俊│发愿│无偿│赠送│百日红│1000│株│。
孤立地看句子（7），即使进行句法甚至语义分析也不能判断到底是切分a还是切分b（两者都具合理性）。只有跳出句子界限的束缚，在比句子更大的单位——篇章内才能定夺。譬如，若下文出现“冯俊发”如何如何，则取切分a；出现“冯俊”如何如何，则取切分b。显然，局部统计量与心理学中的“短时记忆”机制或计算机技术中的“缓冲区”机制是“心有灵犀一点通”的。
一般地，未登录词的介入会引起新的切分歧义，从而使分词系统所面临的形势更加复杂化。Sun M.S. and Shen D.Y., et al. (1997) 将切分歧义明确地细分为：1）普通词与普通词之间的切分歧义（第2.1节）；2）普通词与未登录词之间的切分歧义；3）未登录词与未登录词之间的切分歧义。
观察句子（8）：
（8）王林江爱踢足球。
中国人名识别模块猜出的候选者为“王林”、“王林江”、“林江”、“林江爱”、“江爱”，中国地名识别模块猜出的候选者为“林江”。其中中国人名“王林”与“王林江”、“王林”与“林江”、“王林”与“林江爱”、“王林江”与“林江”、“王林江”与“林江爱”、“王林江”与“江爱”、“林江”与“林江爱”、“林江”与“江爱”、“林江爱”与“江爱”之间以及中国人名“林江”与中国地名“林江”之间产生了未登录词与未登录词之间的切分歧义，普通词“爱”与“江爱”、“林江爱”之间则产生了普通词与未登录词之间的切分歧义。
必须说明，目前关于未登录词处理的研究，总的来说还是比较初步，在方法上特别是在局部统计量的计算模型上还要下大气力。这里不加说明地列出两组例子，读者不妨仔细体会个中滋味：
附图
　2.3　语言资源建设
     一个好的自动分词系统离不开必要的语言资源的支持。涉及到的最主要的资源有三个：通用词表、经过分词和词性标注的语料库以及极大规模生语料库。一方面，它们为开采分词系统所需要的各类知识提供了“矿藏”丰富的宝山（如：切分歧义的静态分布与采用什么样的词表有关，切分歧义的动态分布及其句法消解模式，乃至隐Markov模型的统计参数，都可从分词和词性标注的语料库中习得，全局统计量则可由极大规模生语料库自动转化而来）；另一方面，分词和词性标注的语料库又可作为测试材料对自动分词系统的性能进行定量评估。因此，语言资源的构造同样是自动分词研究不可或缺的一环。
      这个环节上面临的主要困难其实源自汉语语言学研究中悬而未决的一些“经典”问题，如词与语素及短语的界限、词类划分体系及词的具体归类等等。受文章长度的制约，不打算多谈了。这里仅想对第一个问题（其实就是所谓的分词规范）简单讲几句。分词规范直接影响到词表和分词语料库的质量，虽然已经有了国家标准（国家技术监督局1993；刘源等1994），有的单位也制定了自己的规范（黄居仁、陈克健等1997），但这些规范的可操作性都不太强（如国家标准中多次出现的关于“什么是词”的表述：“结合紧密、使用稳定”，就无法操作），很难据之构造出一致性好的词表和分词语料库来（孙茂松1999）。针对这一点，梁南元、刘源等（1991）和孙茂松、张磊（1997）提出了“人机结合、定性与定量并举”的解决思路，并进行了一定规模的实验，但这个思路是否真的可操作，尚言之过早。
      顺带提一下，在这个环节上，语言学是大有用武之地的，计算语言学正在以一种迫切、坦诚的心情张开双臂期待着与语言学的拥抱。反过来，语言计算的性质（系统必须覆盖拟处理的一切语言现象）也会逼迫语言学更多地以全面、系统的观点解释、分析语言，从中升华出来的理论可能更贴近语言的真实面貌，更经得起推敲。

3.　今后的研究要点
1995年12月，国家科委组织了863智能机专题自动分词评测，国内有几个系统参加。开放测试条件下的评测结果是：分词精度最高为89.4％；交集型切分歧义处理的正确率最高为78.0％，覆盖型切分歧义处理的正确率最高为59.0％；而未登录词识别的正确率，人名最高为58.0％，地名最高为65.0％（刘开瑛1997）。1998年3月，国家科委又搞了第二次评测，结果与第一次差不多。这意味着，即使是对汉语分析最低级、最简单的任务——自动分词，距真正意义的实用还有距离，我们还须付出艰苦、细致的努力。
这个不容乐观的现状并不影响我们在第1 节中对汉语自动分词的可行性做出比较乐观的估计，因为虽然有待完成的工程量还很大，但在任务难度的性质上，自动分词毕竟不属于“挟泰山以超北海”——“非不为也，乃不能也”一类。那么，今后的研究应着重在哪几点上“有所为”，才能有助于达至我们的理想境界呢？结合自己的研究经验，笔者认为大概要抓以下一些工作：

1）尽快建立一个广为接受的、高质量的通用词表。这是保证其它一切自动分词研究是否扎实、可靠的先决条件；

2）建立一套为学界同仁认同并遵守的汉语自动分词规范和词性标注规范，研制百万字级的经分词、词性标注的平衡语料库以及千万字级的甚至亿字级经分词的通用语料库。各家的工作成果应尽量共享，避免简单重复；

3）在通用词表及极大规模语料库的支持下，系统地发现那些频度高、稳定性好（指与领域基本无关）的切分歧义（或可称为通用切分歧义）并有针对性地给出解决办法；

4 ）对覆盖型切分歧义的研究目前十分薄弱，统计手段似乎鞭长莫及，宜探讨新的对策；

5 ）使已有的各种专有名词识别机制更加精细化，并增设日本人名、少数民族人名识别机制；

6）研究各种专有名词之间的冲突处理机制；

7）继续发掘全局统计量和局部统计量的潜力，同时注意克服其副作用；

8）研究融合词法、句法甚至部分语义信息，集经验主义（统计形式）与理性主义（规则形式）于一体的分词算法；

9 ）以已有工作为基础（曹焕光、郑家恒1992 ），构造更加合理的自动分词评测模型，争取评测工作的权威化、公开化、持续化；

10）在机器学习理论的指导下，研究从线性或半结构化语言单位序列中获取结构化语言知识的途径，以及有监督学习和无监督学习的互补互动策略，最大限度地提高自动分词系统对复杂开放环境的自适应能力。

【参考文献】
Chang, C.H. and Chen C.D. 1993.　A　study　on　integratingChinese　 word　 segmentation　and　part- of- speech　tagging.Communications of COLIPS 3.2.69—77.
Chen, H.H. and Lee J. C.　 1994.　 The　identification　oforganization names in Chinese texts. Communications of　COLIPS4.2.131—142.
Chen, K. J. and Liu S.H. 1992.　 Word　identification　for　Mandarin　 Chinese　sentences.　 Proceedings　of　the　 14th International　Conference on Computational Linguistics,　 101—107.Nantes.
Fan,　 C. K.　 and　Tsai　W. H.　 1988.　 Automatic　wordidentification　in　Chinese　sentences　 by　 the　 relaxationtechnique.　 Computer　Processing　of　Chinese　and　 OrientalLanguages 4.1.33—56.
Guo, J.　1997. Critical tokenization and　its　properties. Computational Linguistics 23.4.569—59.
Lai,B.Y.,Sun M.S.,et al.1992.Tagging- based　first　 orderMarkov model approach to Chinese word identification.
　　　Proceedings　of　1992　International　Conference　onComputer Processing of Chinese and Oriental Languages, Florida.
----.1997.Chinese word segmentation　and　part- of- speechtagging　in one step.Proceedings of　International　Conference:1997 Research on Computational Linguistics,229—236.Taipei.
Nie,J.Y. , Brisebois　M. , et　al. 1996. On　Chinese　wordsegmentation and word- based　text　retrieval. Proceedings　ofInternational Conference on Chinese Computing 1996, 405 —412.Singapore.
Nie,J.Y.,Jin W.Y.,et al.1994.A hybrid approach to　unknownword detection and segmentation of Chinese.
　Proceedings　of　International　Conference　on　 Chinese Computing 1994,405—412.Singapore.
Palmer,D.D.1997.A trainable rule- based Algorithm for word segmentation.Proceedings of the 35th　Annual Meeting　of　ACL and 8th Conference of the European Chapter of ACL.Madrid.
Sproat,R.and Shih　C. L. 1993. A　statistical　method　forfinding word boundaries in Chinese　text. Computer　Processing of Chinese and Oriental Languages 4.4.336—249.
Sproat, R.,Shih C.L.,et al.1996.A stochastic　finite-stateword　segmentation　 algorithm　 for　 Chinese.　ComputationalLinguistics 22.3.377—404.
Sun,M.S.and Benjamin K. T. 1995. Ambiguity　resolution　inChinese　word　segmentation. Proceedings　of　the　10th　 AsiaConference　on Language,Information and Computation, 121 —126.Hong Kong.
Sun, M.S., Lai B.Y. ,　 et　al.　 1992.　 Some　issues　onstatistical　 approach　to　 Chinese　 word　 identification.Proceedings of the 3rd　International　Conference　on　ChineseInformation Processing, 246—253. Beijing.
Sun, M.S., Lin F.Z., et al. 1996.　 Linguistic　processingfor Chinese OCR & TTS. Proceedings of the　 2nd　InternationalConference of Virtual Systems and Multimedia,27—42.Gifu.
Sun,M.S.,Shen D.Y.,et al.1997.Cseg & Tag 1.0: A　practicalword segmenter and POS tagger for Chinese texts.　 Proceedingsof the 5th Conference on　Applied Natural Language　Processing,119—126.Washington D.C.
----.1998.Chinese word segmentation without using　lexiconand hand-crafted training data.Proceedings of the 36th　AnnualMeeting of Association of Computational　Linguistics　and　the17th　International Conference　on　Computational　Linguistics,1265—1271.Montreal.
Wu,A.D.and Jiang Z.X.1998. Word segmentation　in　sentenceanalysis.Proceedings of the 1998 International　Conference　onChinese Information Processing,169—180.Beijing.
Wu,Z.M.and Tseng G. 1993. Chinese　text　segmentation　fortext　retrieval: achievements　and　problems. Journal　of　theAmerican Society for Information Science 44.9.532—542.
----.1995.ACTS: An　automatic　Chinese　text　segmentationsystem　for　full　text　retrieval. Journal　of　the　AmericanSociety for Information Science 46.1.83—96.
Yeh,C.L.and Lee H.J.1991.Rule- based　word　identificationfor　Mandarin　Chinese　sentences — a　unification　 approach.Computer Processing of Chinese and Oriental Languages 5.2. 97—118.
白拴虎，1995，汉语词切分及词性标注一体化方法。《计算语言学进展与应用》北京：清华大学出版社，56—61页。
曹焕光、郑家恒，1992，自动分词软件质量的评价模型。《中文信息学报》第4期，57—61页。
董振东， 1997，汉语分词研究漫谈。《语言文字应用》第1 期，107—112页。
国家技术监督局，1993，中华人民共和国国家标准GB/T　13715 —92。《信息处理用现代汉语分词规范》北京：中国标准出版社。
黄居仁、陈克健等，1997，“资讯处理用中文分词规范”设计理念及规范内容。《语言文字应用》第1期，92—100页。
黄萱菁、吴立德等，1996，基于机器学习的无需人工编制词典的切词系统。《模式识别与人工智能》第4期，297—303页。
黄祥喜，1989，书面汉语自动分词的“生成—测试”方法。《中文信息学报》第4期，42—49页。
韩世欣、王开铸，1992，基于短语结构文法的分词研究。《中文信息学报》第3期，48—53页。
何克抗、徐辉等，1991，书面汉语自动分词专家系统设计原理。《中文信息学报》第2期，1—14页。
揭春雨、刘源等，1989，论汉语自动分词方法。《中文信息学报》第1期，1—9页。
李国臣、刘开瑛等，1988，汉语自动分词及歧义组合结构的处理。《中文信息学报》第3期，27—33页。
梁南元，1987，书面汉语自动分词系统——CDWS。《中文信息学报》第2期，44—52页。
——，1990，汉语计算机自动分词知识。《中文信息学报》第2 期，29—33页。
梁南元、刘源等，1991，制订《信息处理用现代汉语常用词词表》的原则与问题讨论。《中文信息学报》第3期，26—37页。
刘开瑛，1997，现代汉语自动分词评测技术研究。《语言文字应用》第1期，101—106页。
刘挺、吴岩等，1998，串频统计和词匹配相结合的汉语自动分词系统。《中文信息学报》第1期，17—25页。
刘挺、王开铸，1998，关于歧义字段切分的思考与实验。《中文信息学报》第2期，63—64页。
刘涌泉，1988，再谈词的问题。《中文信息学报》第2期，47 —50页。
刘源、梁南元，1986，汉语处理的基础工程——现代汉语词频统计。《中文信息学报》第1期，17—25页。
刘源等，1994，《信息处理用现代汉语分词规范及自动分词方法》北京：清华大学出版社及广西科学技术出版社。
马晏，1996，基于评价的汉语自动分词系统的研究与实现。《语言信息处理专论》北京：清华大学出版社及广西科学技术出版社，2 —36页。
沈达阳、孙茂松，1995，中国地名的自动辨识。《计算语言学进展与应用》北京：清华大学出版社，68—74页。
沈达阳、孙茂松等，1997a，汉语分词系统中的信息集成和最佳路径搜索方法。《中文信息学报》第2期，34—47页。
——， 1997b，局部统计在汉语未登录词辨识中应用和实现方法。《语言工程》北京：清华大学出版社，127—132页。
宋柔、朱宏等，1993，基于语料库和规则库的人名识别法。《计算语言学研究与应用》北京：北京语言学院出版社，150—154页。
孙茂松，1999，谈谈汉语分词语料库的一致性问题。《语言文字应用》第2期，87—90页。
孙茂松、黄昌宁等，1995，中文姓名的自动辨识。《中文信息学报》第2期，16—27页。
——，1997，利用汉字二元语法关系解决汉语自动分词中的交集型歧义。《计算机研究与发展》第5期，332—339页。
孙茂松、张维杰，1993，英语姓名译名的自动识别。《计算语言学研究与应用》，北京：北京语言学院出版社，144—149页。
孙茂松、张磊，1997，人机共存，质量合一——谈谈制定信息处理用汉语词表的策略。《语言文字应用》第1期，79—86页。
孙茂松、邹嘉彦，1995，汉语自动分词研究中的若干理论问题。《语言文字应用》第4期，40—46页。
孙茂松、左正平，1998，汉语真实文本中的交集型切分歧义。《汉语计量与计算研究》香港：香港城市大学出版社，323—338页。
——，1999a，消解中文三字长交集型分词歧义的算法。《清华大学学报》第5期，101—103页。
孙茂松、左正平等，1999b，高频最大交集型歧义切分字段在汉语自动分词中的作用。《中文信息学报》第1期，27—34页。
王晓龙、王开铸等，1989，最少分词问题及其解法。《科学通报》第13期，1030—1032页。
王永成、苏海菊等，1990，中文词的自动处理。《中文信息学报》第4期，1—10页。
姚天顺、张桂平等，1990，基于规则的汉语自动分词系统。《中文信息学报》第1期，37—43页。
徐秉铮、詹剑等，1993，基于神经网络的分词方法。《中文信息学报》第2期，36—44页。
徐辉、何克抗等，1991，书面汉语自动分词专家系统的实现。《中文信息学报》第3期，38—47页。
张俊盛、陈舜德等，1992，多语料库作法之中文姓名辨识。《中文信息学报》第3期，7—15页。
张小衡、王玲玲，1997，中文机构名称的识别与分析。《中文信息学报》第4期，21—32页。

你可能感兴趣的:(工作,processing,自然语言处理,sun,语言,出版)

常见排序方法大全实相无相算法排序算法数据结构
这篇文章主要讨论各种常见的排序算法，包括冒泡排序、插入排序、选择排序、快速排序、堆排序、希尔排序、归并排序、基数排序等。每种排序算法都有它自己的特点。本文将对这些算法的工作原理、特点、时间复杂度等方面进行介绍，并且给出实现示例。一：基本定义冒泡排序（BubbleSort）：是一种简单的排序算法，它重复地走访过要排序的数列，一次比较两个元素，如果它们的顺序错误就把它们交换过来。插入排序（Insert
面试官是怎么筛选简历的慕慕涵雪月光白算法
在互联网行业工作十几年，管理过团队，做过经理、总监，看过几千份简历，面试过几百位程序员，包括前端、后端、客户端，也面试过其他岗位，比如产品、设计、运营等。这个过程中最耗时的就是筛简历了，现在一个岗位放出去能收到几百份简历，人力资源会筛掉9成，到我这又会筛掉剩下的9成，最终能进入面试环节的可能就3~5个人。这中间最重要的就是简历，它的质量跟你的求职成功率强相关。所以我想从面试官的角度来说一说写简历要
提示工程入门指南：如何有效地与大语言模型交互止观止大语言模型语言模型人工智能
本文深入拆解提示工程的核心概念、最佳实践和实用技巧。作为AI领域的热点技术，提示工程（PromptEngineering）能显著提升大语言模型（LargeLanguageModel,LLM）如DeepSeek的响应质量。文档结构概览引言：为什么需要提示工程？提示的定义与结构：上下文、指令、约束的完整解析提示工程原则：6项核心技巧有效vs无效提示对比：案例驱动的实操分析用户提示与系统提示：行为控制的
MQTT2-MQTT的工作原理十步杀一人_千里不留行深入浅出学习MQTT java 网络开发语言
介绍MQTT协议的消息模型，消息传输过程，消息发布和订阅。一、介绍MQTT协议的消息模型MQTT协议的消息模型被称为“主题”模型。在这种模型中，服务器接收到的消息将通过主题进行分类。客户端可以通过订阅一个或多个主题来接收所需的消息。1.MQTT协议中的消息主题当发布MQTT消息时，消息被分为一个主题和一个消息负载。主题用于标识消息的类别，可以是任何字符串，但是通常使用斜杠分隔的层次结构。例如，一个
GitFlow 工作模式（详解） asom22 git
今天再学项目的过程中遇到使用gitflow模式管理代码，因此进行学习并且发布关于gitflow的一些思考Git与GitFlow模式我们在写代码的时候通常会进行网上保存，无论是github还是gittee，都是一种基于git去保存代码的形式，这样保存代码会十分的整洁并且丢失后还容易找回，但是，你会发现如下问题：版本管理不够清晰如果没有良好的规范，master分支可能包含未完成或不稳定的代码。不适合多
虚幻引擎UE多语言设计与实现污领巾虚幻 java 数据库
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、启用本地化功能二、创建本地化文本使用文本本地化文件三、UI文本本地化UMG本地化：Slate本地化：四、音频和资产本地化五、运行时语言切换设置当前文化：蓝图实现切换：测试和打包前言在虚幻引擎（UnrealEngine）中实现游戏**多语言（本地化，Localization）**功能，是比较成熟的一套机制。可以通过以下几
n8n和dify有什么区别小雷FansUnion AI2025 人工智能
n8nvsDify全面对比分析1.产品定位对比1.1核心定位差异维度n8nDify产品类型工作流自动化平台AI应用开发平台主要用途连接不同服务，实现业务自动化快速构建AI聊天机器人和应用目标用户业务人员、运营人员、开发者AI应用开发者、产品经理核心价值提升工作效率，减少重复劳动降低AI应用开发门槛1.2应用场景对比n8n应用场景：├──数据同步自动化│├──CRM与邮件系统同步│├──表格数据自动
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
MQTT 和 HTTP 有什么本质区别？冰糖心书房 MQTT http 网络协议网络
MQTT和HTTP的本质区别在于它们设计的初衷和核心工作模式完全不同。它们是为解决不同问题而创造的两种工具。简单来说：HTTP就像是去图书馆问问题：你（客户端）主动去找图书管理员（服务器），问一个具体的问题（请求），然后站在原地等待他给你找来答案（响应）。问完一个问题，这次交流就结束了。MQTT就像是订阅了一份杂志：你（订阅者）去邮局（Broker）说“我对《科技先锋》这个主题感兴趣”，然后回家。
FastAPI vs Flask vs Django：Python Web框架全面对比天天进步2015 python python fastapi flask
Python作为最受欢迎的编程语言之一，其Web开发生态极为丰富。FastAPI、Flask和Django是当前主流的三大PythonWeb框架，各有千秋。本文将从架构设计、开发效率、性能表现、生态支持、适用场景等方面，全面对比这三大框架，帮助开发者选择最适合自己的技术栈。目录框架简介架构设计与理念开发效率与易用性性能对比生态与扩展性典型应用场景总结与选型建议参考资料框架简介FastAPI定位：新
Reqable：跨平台HTTP开发与调试工具
在现代软件开发中，HTTP请求的调试和测试是开发者日常工作的重要组成部分。Reqable是一款功能强大且易于使用的跨平台HTTP开发与调试工具，它简化了HTTP请求的构建、发送和响应分析过程，为开发者提供了极大的便利。一、Reqable的主要功能Reqable提供了丰富的功能，帮助开发者高效地进行HTTP开发和调试：多平台支持：Reqable支持Windows、macOS和Linux操作系统，确保
浏览器的垃圾回收机制甘露寺 js 浏览器 javascript 前端
深入解析现代浏览器的垃圾回收机制：分代回收与标记清除算法本文详细探讨了Chrome、Firefox等现代浏览器中JavaScript引擎的垃圾回收（GC）原理，重点讲解分代回收策略和标记清除/整理算法的工作流程，并通过示例帮助理解内存自动管理背后的机制。为什么需要垃圾回收？JavaScript是一种自动内存管理的语言。开发者通常不需要手动分配或释放内存（如C/C++中的malloc/free）。这
免费实时AI图片编辑工具-多模态大模型：GPT-4o、grok、豆包、BAGEL、MagicQuill、OmniGen2 loong_XL AIGC aigc
纯自然语言对话实现图像编辑；参考https://zhuanlan.zhihu.com/p/1890036563586577897GPT-4ohttps://chatgpt.com/geminihttps://gemini.google.com/grokhttps://grok.com/?referrer=website
C语言---深入理解指针(3) 星竹晨L C语言 c语言
目录1字符指针变量2数组指针变量2.1什么是数组指针变量2.2数组指针变量的初始化3二维数组传参的本质4函数指针变量4.1两个有趣的代码4.2typedef关键字5函数指针数组6函数指针数组的应用---计算器的实现6.1计算器的一般实现6.2利用函数指针数组实现6.3一般实现的改进1字符指针变量在指针的类型中有一种指针类型为字符指针char*，一般使用：#includeintmain(){char
C# 索引器（Indexer）
C#索引器（Indexer）引言在C#编程语言中，索引器（Indexer）是一种特殊类型的属性，它允许我们通过索引来访问和设置对象的成员。索引器是动态数组和集合的基石，同时也可以用于创建自定义的数据结构，如字典等。本文将深入探讨C#索引器的概念、实现方式以及在实际开发中的应用。索引器的基本概念索引器是一种属性，它允许通过索引来访问和设置对象的成员。与普通的属性相比，索引器可以接受一个或多个参数，从
Tailwind CSS工作原理 TE-茶叶蛋 css css tensorflow 前端
文章目录前言1.指令解析与AST操作**核心处理流程****具体流程说明**2.**配置驱动的样式生成**3.**JIT模式（Just-In-Time）的核心逻辑**4.**插件与自定义扩展**5.**与PostCSS管道的协同**6.**优化与TreeShaking**关键源码逻辑（简化）关键技术细节（底层机制总结）前言TailwindCSS本质上是一个PostCSS插件，其底层工作原理可以拆解
2024年工作日周末法定节假日数据json 醉心吻月 json
0工作日1周末2节假日[{"day":"2024-01-01","type":2},{"day":"2024-01-02","type":0},{"day":"2024-01-03","type":0},{"day":"2024-01-04","type":0},{"day":"2024-01-05","type":0},{"day":"2024-01-06","type":1},{"day":"
通过网络api获取日期对应的节假日信息白衫长发时光与她 QT 网络 qt
网络接口获取链接：免费节假日API_原百度节假日APIHolidayJudge.h#pragmaonce#include#include"ui_HolidayJudge.h"enumDATESTATE{WORK=0,//工作日DAYOFF,//休息日HOLIDAY//节假日};classHolidayJudge:publicQWidget{Q_OBJECTpublic:HolidayJudge(Q
php 获取一年中的节假日,PHP开发节假日时间表吴敬欣 php 获取一年中的节假日
无意中发现一个节假日的API接口：http://timor.tech/api/holiday/year这个接口实现起来其实很简单，而且一年只需要维护一次，想要自己实现这个接口可参考博主之前写的这篇文章PHP判断某个日期是否为工作日使用这个接口可以更简单快速的写一个“节假日时间表”，例如博主写的代码：$row){if(!$row['holiday']){continue;}if(mb_strpos(
keep-alive实现原理及Vue2/Vue3对比分析年纪轻轻就扛不住 VUE vue.js 前端 javascript
一、keep-alive基本概念keep-alive是Vue的内置组件，用于缓存组件实例，避免重复渲染。它具有以下特点：抽象组件：自身不会渲染DOM，也不会出现在父组件链中包裹动态组件：缓存不活动的组件实例，而不是销毁它们生命周期：提供activated和deactivated钩子函数二、keep-alive核心实现原理1.基本工作流程判断当前组件是否需要缓存生成组件唯一key缓存组件实例在被包裹
死磕solidity之编写可升级合约 mindcarver blockchain ethereum cosmos btc solidity 智能合约
为什么要编写可升级合约默认情况下，以太坊中的智能合约是不可变的。但是一旦项目方提前发现合约漏洞或者想升级功能，是需要合约可以变动的，因此一开始编写可升级的合约是重要的。因此我们需要使用可升级的合约来增强可维护性。升级合约概述升级合约通常是采用代理模式来实现，这种模式的工作原理存在两个合约，一个是代理合约，一个是实现合约，代理合约负责管理合约状态数据，而实现合约只是负责执行合约逻辑，不存储任何状态数
点云从入门到精通技术详解100篇-点云滤波算法及单木信息提取格图素书人工智能
目录知识储备点云滤波算法及单木信息提取点云条件滤波单木信息提取1.点云预处理2.点云密度计算3.密度阈值筛选4.骨架提取5.骨架细化优化方向前言国内外研究现状激光雷达研究现状点云数据的滤波算法研究现状单木分割应用现状LiDAR工作原理与点云数据的组成2.1LiDAR系统的内部结构2.1.1激光测距单元2.1.2光学机械扫描单元2.1.3惯性导航系统INS2.1.4动态差分GPS2.2定位原理2.3
网络安全相关专业就业，零基础入门到精通，看这一篇分析就够了
对于就业环境来说，都说不好，但我分析下来，其实网络安全专业还是有很多选择或出路的。有不少部门，可能很多人没有之前都没有听说过，平时也没有关注这块的招聘或者考编信息。今天，统一整理一下，方便大家获取。1、政府部门与事业单位在政府部门与事业单位中，网络安全专业毕业生有多个选择：公安局、网信办等部门：虽然工作压力较大，但待遇优厚且有编制保障。省直、市直单位信息中心：性价比高且有编制保障，是一个稳定且不错
核密度估计KDE和概率密度函数PDF（深入浅出）赵孝正深度学习数学基础 pdf KDE
目录1.和密度估计（KDE）核密度估计的基本原理核密度估计的公式核密度估计的应用Python中的KDE实现示例代码结果解释解释结果总结2.概率密度函数（PDF）概率密度函数（PDF）是怎么工作的：用图画来解释解释这个图：问题解答：总结3.核密度估计（KDE）和概率密度函数（PDF）之间的关系故事开始：第一种方法：概率密度函数（PDF）第二种方法：核密度估计（KDE）总结一下：问题解答：1.和密度估
MyBB免费论坛 v1.8.21：开源论坛搭建与管理车英赫
本文还有配套的精品资源，点击获取简介：MyBB免费论坛v1.8.21是一个流行的开源论坛软件，以其灵活性、易用性和功能丰富性著称。它由PHP语言编写，利用MySQL数据库存储数据，并提供了一个符合用户习惯的高效平台。MyBB具备标准的论坛布局和强大的功能特性，包括权限管理、插件系统、主题与模板定制、积分奖励系统、强大的搜索功能、邮件通知、报告系统和多语言支持。同时，MyBB注重安全性，修复了安全漏
java解压zip文件 qq_21526409 java 开发语言
importjava.io.*;importjava.nio.charset.Charset;importjava.util.Enumeration;importjava.util.zip.ZipEntry;importjava.util.zip.ZipFile;importjava.util.zip.ZipInputStream;publicclassUnzipUtils{/***zip文件里面
Python 移位操作与 C移位操作你搁这儿写bug呢？ Python 移位操作 Python C
在C语言中左移：m>nm>>n表示把m向右移动n位，右移n位时，最右边的n位将被抛弃，最左边空出来的位置使用符号位填充。在Python中右移n位可以定义为除以pow(2,n)，左移n位可以定义为乘以pow(2,n)；对于普通整数是没有溢出检查的,因此若结果的绝对值大于等于pow(2,31)，这个运算会截掉相应的位并且符号位也在移位处理之列.参考：https://www.cnblogs.com/zh
【PyTorch】分布式训练报错记录-ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) XuecWu3 pytorch 分布式人工智能深度学习
最近，我在服务器上起基于PyTorch分布式框架的预训练实验，起初实验都在顺利进行，但是当我们把模型的深度与宽度调大之后，模型在训练几代之后便会出现如下的报错：WARNING:torch.distributed.elastic.multiprocessing.api:Sendingprocess41495closingsignalSIGTERMWARNING:torch.distributed.e
SQL的优化技巧清风序来数据库 sql mybatis 数据库
目录前言1避免使用select*2用unionall代替union3小表驱动大表4.批量操作5多用limit6in中值太多7增量查询8高效的分页9用连接查询代替子查询10join的表不宜过多11join时要注意12控制索引的数量13选择合理的字段类型14提升groupby的效率15索引优化前言sql优化是一个大家都比较关注的热门话题，无论你在面试，还是工作中，都很有可能会遇到。如果某天你负责的某个
简说 MISRA-C++ is0815 c++
MISRA-C++是嵌入式系统中广泛采用的C++编码规范，旨在提高代码安全性、可靠性和可维护性。以下是MISRA-C++的详细要求，涵盖核心规则分类、禁用特性及最佳实践：一、核心规则分类1.语言使用限制禁用动态内存分配（new/delete、std::malloc）风险：内存碎片、分配失败导致运行时崩溃替代：静态数组、对象池或定制内存分配器禁用异常处理（try/catch/throw）风险：异常展
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http