Love_JavaProgram

采访IK Analyzer 中文分词器开源项目作者林良益（十三）

转自： http://www.iteye.com/magazines/43-ik-analyzer

众所周知，全文搜索几乎已经成为每个网站的必须提供的基本功能之一，用Lucene构造一个“索引－查询”的应用是常见的java解决方案，目前由linliangyi2007创立的IK Analyzer是最好的Lucene 中文分词器之一。

首先介绍一下IKAnalyzer：IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer 已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。最近刚刚发布了 3.1.1Stable稳定版本，新版本的IKAnalyzer 则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。

linliangyi2007 (林良益) 是一位资深的Java开发者和优秀开源开发者, JavaEye非常荣幸的采访了他。

linliangyi2007 (林良益) 博客： http://linliangyi2007.iteye.com/

欢迎大家推荐更多开源项目给我们，支持中国的开源项目发展，发站内短信给JavaEye管理员或者发信到[email protected]，谢谢。

目录 [ - ]

采访IK Analyzer 中文分词器开源项目作者linliangyi2007
linliangyi2007 (林良益) 介绍

采访IK Analyzer 中文分词器开源项目作者linliangyi2007

JavaEye：1. hi，linliangyi2007 你好，非常荣幸能够采访你。你能介绍一下IK Analyzer 中文分词器开源项目是如何创立的吗？

linliangyi2007：好的，这个要从和lucene的结缘开始说起了，大概05年左右，开始是为了完成一个电信的信息管理系统，里面需要用到全文检索的。后来发现对中文搜索，lucene没有很好的分词支持。当时我发现最棒的就是车东的CJK了，应该说，他的blog文章对我的IK Analyzer 诞生起了很大的影响。后来，我们公司开始做一个基于web gis的本地信息搜索网站的互联网应用，这就促使我萌生了自己写一个中文分词器的想法。最开始是基于对词典的匹配，后来对词典中未出现的词语就有了进一步处理的想法，IK Analyzer 的设计理念也是一步一步形成的。这期间也结合了很多互联网用户的搜索体验的反馈。

有趣的是，我的两位好朋友，也就是paoding分词器的作者和JE-MMAnalyzer分词器的作者，都在基本相同的时期开始了各自的分词器研究。三个人也就热火朝天的讨论开了，有交流，也有比较。因为有了这样一个圈子和氛围，也使的IK分词器一直从06年底开始，不断的更新到现在。大家的处理速度，算法的优化，还有词典的整理一直在持续。当然，由于大家都有自己的工作（吃饭问题很实际啊），期间都有一段时间，暂停了项目的发展，IK2.0是在07年初发布的，3.0则到了09年，最近刚刚发布了 3.1.1Stable稳定版本。

JavaEye：2. IK Analyzer 中文分词器项目的特点和应用的主要方面是哪些？新版本做了哪些修正？

linliangyi2007： IK Analyzer 是更多的考虑了互联网用户在产品及名址信息搜索这块的应用，IK特别适用于搜索商家，产品，名址，如商品交易，美食，娱乐，电子地图等，因为它是基于这样的应用诞生的。IK在一开始的设计的时候，它有一个隐形的目标，是对数词，量词，专有名词的增强处理，这是由于它的基于web gis搜索的需求定位决定的。如果持续使用IK的用户，应该会发现，IK的早期版本对数量词，专有名词的切分，是整体输出的，举个例子：“2009年12月”，在IK1.x版本的时候，是作为一个词元输出的，对未知的路名，人名，商店，公司名称都是如此，因此很多用户说，IK早先版本的分词效果“看起来”特别好，注意，我这里说的是“看起来", 但搜索起来就未必了。

由于lucene搜索的倒排搜索结构，决定了lucene搜索的速度优势在于“全词匹配”而非like匹配，这就造成了过于粗粒度的输出分词结果好看，但用户经常搜索不到东西，在饱受公司客户“无情的”打击之后，IK后续的版本对此做了很大的改进。后期版本的切分越来越细碎，越来越不“漂亮”了，这点在3.0尤其明显，但保证了用户在分词搜索中的召回率。问题是，这点的改进会带来另一方面的负面影响，词打得太散，搜索的准确度下降了，为此IK3.0从问题的另一角度来提供了相对的解决方案。

JavaEye：3. 能否详细介绍一下这个解决方案？

linliangyi2007：好的，使用lucene搜索的开发者应该注意到，分词器在其中扮演着两个角色：一个是在lucene建立索引库时候，对文档进行切分。这时候，细粒度的切分，保证信息能尽可能的被“查找到”；另一个使用分词器的过程，实在用户输入搜索关键字的过程。分词器要多关键字进行分词，而后同索引匹配。 IK3.0就在这个地方为用户提供了一个相对优化的搜索方式，一个是IKQueryParser，这个也是我在blog中吐血推荐的，呵呵。对于大多普通的搜索应用，它能为用户提供不错的搜索关键字组合。

举个例子，用户搜索“永和服装饰品”，对于分词器而言，它会切分出“永和”“和服”“服装”“装饰”“饰品”等。但分词器没有判断的能力（实际上，目前所有的分词器，即便有部分排除歧义的功能，也不完善），如果强制分词器进行排歧义处理，则可能会得出完全错误的结果。IK则是尝试给出所有可能的方案，在IKQueryparser 中，它不是简单的返回所有分词结果的组合，而是建立起一个分词树，将有可能的组合放在一起，它的输出会类似于这样：(“永和” && “服装” && “饰品”) || (“和服”&& “装饰”)，通过这个搜索逻辑去索引中进行匹配，在现实中，我们完全可以假设只有合理的词元会搭配在一起，那么，不合理的搭配，它的就可能不会出现，或者即使出现，但匹配度较低。因此，IK3.0又给出了一个IKSimilarity的相似度评估器，来提高多词匹配的优先度，这样的搜索，就能形成高匹配度的文档，出现在前面，低匹配度的在后面，不合理的匹配就不出现的结果。这个也是自己的项目实战经历了。

IKSimilarity是实现了lucene Similarity的接口的，在进行搜索前，使用IndexSearch的API进行设置就好，这个在IK3.0的DEMO中有详细的例子说明，至此，IK3.0在尽可能保证文档召回率的前提下，实现了相关文档搜索匹配度的优先。当然，这不能绝对意义上杜绝不正确信息被搜索出来（PS：就目前各大主要搜索引擎的实现也是这样的）。在分词器的设计中，应该说不尽是IK，其他分词器的作者也是绞尽脑汁的想了很多，但目前还没有特别完美的方案。对IK而言，我也收到了来至各方面用户的反馈，有用在互联网搜索领域的，有用于企业内部搜索的，还有做语言分析的，但就我个人的感觉而言，目前很难在一个分词器中，实现多种目标。 因此，我很赞同paoding的作者说的一句话，没有最好的分词器，只有最适合于某个领域的分词器。

JavaEye：4. 你能分析和比较一下类似的其他中文分词器项目吗？

linliangyi2007：简单说一下吧：

JE-MManalyzer：它的算法具有歧义分析，比较适合做垂直搜索和信息挖掘。他的中文名称是“极易”，开发者的理念是-简单即是美。

中科院的分词器：中科院的分词器很牛，其切分结果明显基于语义分析。

paoding：paoding的结构设计的非常灵活，适合于对其进行开源改造。

mmseg4j：单从mmseg4j 的项目介绍上看，它是一个很纯粹的基于词典分词的实现，既有细粒度的切分，也有最大长度的切分。应该说，是一个学习词典分词的很好的典范。

JavaEye：5. IK Analyzer 未来的roadmap是什么？你对 IK Analyzer的规划和目标是什么？

linliangyi2007：就IK后期的roadmap而言，主要致力于两点，一个是词典的整理优化，这块工作量是巨大的，且是枯燥的，呵呵。3.1.版本后词条是27万，但其中有不少的“不合格”词语，需要被剔除。第二是，有可能引入词频和字频的统计算法，来优化对未知词语的处理，这个还处于理论阶段。

后期的想法，可能会考虑牺牲一定的性能，来换取分词效果，从企业应用和中小型互联网应用而言，10万汉字/秒以上的处理速度，应该都能够满足需求了。

JavaEye：6. 你对整个lucene搜索领域怎么看？能推荐几个你觉得比较关注的搜索领域热点吗？

linliangyi2007：lucene是一个相当优秀的全文检索核心框架，基于它的应用是很多的。就lucene自己而言，已经发展出了nutch（面向互联网），solr（面向企业集群）等多种应用，这些也都是全文索引领域最经常用到的。而实际上，lucene的索引特性还可以用在更多方面，比如，你可以用它了做web gis的地图引擎，这是一个已经成功实现的商用项目。

因此，对lucene的关注，我觉得应该开放自己的思维。因为索引在计算机应用中，领域是非常广泛的，大家应该不拘一格。这点要归功于google对数据搜索应用概念的推广，深入人心。

JavaEye：7. 未来搜索引擎的发展方向会有哪些呢？

linliangyi2007：大型互联网应用，比如google，他们的应该不仅是分词器了，应该是一个自然语言处理系统了，包括了自我学习能力。

先说搜索的内容形式，会多元化，实际上已经有国外的公司在研发了，基于音频的，图像的搜索，如通过歌词搜索音频内容，从搜索的用户体验上，会结合用户的使用习惯给出搜索结果。也就是说，在未来，有可能你和我在google上搜索相同的词语，出来的结果会有不同。

还有，就是搜索形式可能会更多，有针对特定类型信息的垂直搜索，信息挖掘，也可能是针对SNS方式的人际网络搜索。其实搜索的本质就是按照用户的视角将纷繁的数据进行合理的组织，再呈现在用面前；从最早的MIS系统的sql搜索，到现在，一直如此。至于搜索领域google这样的大公司，基于新的搜索技术的公司未来有可能有机会超过他们，我想，最终的网络世界一定是大一统的。大家以后应该是买数据赚钱，而不是服务了。服务的方式是有限的，服务的内容（数据）是无限的，是需要人们创造和提供的。

JavaEye：8. 目前IK Analyzer 是你一个人开发？还是有其他合作开发者？现在你平均每天花在IK Analyzer 上的时间大概是多久呢？

linliangyi2007：IK目前就我一人，我也一直在寻找合作者。(JavaEye: 希望什么样的合作者？)最关键的是兴趣和恒心吧。我基本上每天都会花至少30分钟来解答网友的问题，然后如果需要，就进行修订。平时有了新想法，就会进行试验，如果可行，就会发布新版本。有时候一天会有20多封邮件咨询问题，当然有时候一周才一封，呵呵。

JavaEye：9. 目前大概有多少用户在使用IK Analyzer？

linliangyi2007：初步估计从06年底到现在，应该有1万多用户。(JavaEye：很厉害 ) 主要都是国内的，毕竟是中文的。

JavaEye：10. 为什么给这个项目起IK Analyzer 这个名字呢？

linliangyi2007：呵呵，这个问题问的好，我很喜欢Diablo，尤其是Diablo II，我玩暗黑7年了。暗黑中有个角色，野蛮人哦，它的终极套装就是“不朽之王Immortal King”，IK诞生的那一天，刚好是我打出一整套套装的那一天，于是就用这个套装的名字做纪念了，呵呵，感谢暴雪，感谢JavaEye，感谢CCAV。。。听说java也是这么命名的，当时的设计人员正在喝java咖啡来着……

JavaEye：11. 你的开发环境是什么？使用什么操作系统，和IDE？

linliangyi2007：我用Eclipse，操作系统多是windows，偶尔用linux，客户多使用unix。

JavaEye：12. 通过开发IK Analyzer ，你对中国的软件开发人员做开源项目有什么感受和想法吗？

linliangyi2007：现在大家日常用的开发平台，95%以上都是国外的组织贡献的，中国在这块，是需要赶上的。中国的开源比前几年有了明显的发展，但还需要大家一起来参与。希望大家能逐步型成贡献代码的习惯，其实开源不一定每个人都有做一个项目，参与其中就好，哪怕就一小段的代码。linux能成功，它的很多核心代码都被阅读过，并通过网友们进行了补充和修订。中国的开源氛围薄弱，我觉得更多的是中国传统思想中，对知识保守的因素，师傅对徒弟都要留一手，何况是同业者呢。但我要说，思想的交互是互利的，知识在开放的氛围中增长的速度要远超过封闭的开发，我经常跟我的同事进行头脑风暴，大家都很有收获的，碰撞后的思想，往往能产生意料之外的好结果。

JavaEye：13. 作为一个JavaEye老会员，你对JavaEye网站有什么建议和意见吗？

linliangyi2007：希望javaeye更专业更有深度。对新人创造更包容，更宽松的咨询空间，对老人们则是思想碰撞，温故知新的场所。

切换自定义键盘导致系统键盘收起，小窗模式组件不应该失焦，如何解决？ bug菌¹ 全栈Bug调优(实战版)harmonyos 切换自定义键盘小窗模式组件
本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你早日登顶，迈向财富自由的梦想！同时，欢迎大家关注、收藏、订阅本专栏，更多精彩内容正在持续更新中。让我们一起进步，Up！Up！Up！备注：部分问题/难题源自互联网，经过精心筛选和整理，结合数
【JS-6-ES6中的let和const】深入理解ES6中的let和const：块级作用域与变量声明的新范式 AllenBright #JS javascript es6 开发语言
在ES6(ECMAScript2015)之前，JavaScript中只有var一种变量声明方式，这导致了许多作用域相关的问题。ES6引入了let和const两种新的变量声明方式，彻底改变了JavaScript的作用域规则。本文将深入探讨let和const的特性、优势以及它们与var的区别。1.var的问题与ES6的解决方案1.1var的局限性在ES5及之前版本中，var声明存在几个主要问题：函数作
让你彻底了解 JavaScript 解构赋值前端贾公子前端基础 javascript 前端开发语言
JavaScript解构赋值详解1.解构赋值简介解构赋值（Destructuringassignment）是JavaScriptES6引入的一种语法特性，它使得我们可以从数组和对象中提取值，并以一种更便捷的方式赋值给变量。这种语法可以大大减少代码量，提高代码的可读性和维护性。1.1为什么使用解构赋值？代码更简洁，减少重复的赋值语句提高代码可读性，使变量的来源更清晰方便地处理嵌套数据结构在函数参数中
100W QPS 短链系统怎么设计 Java程序员拥抱ai 电商架构大数据
看上去业务简单，其实，覆盖的知识点非常多：高并发、高性能分布式IDRedisBloomFilter高并发、低内存损耗的过滤组件知识分库、分表海量数据存储多级缓存的知识HTTP传输知识二进制、十六进制、六十二进制知识总体来说，高并发、高性能系统的核心领域，都覆盖了。所以，分析下来，得到一个结论：是一个超级好的问题。1、短URL系统的背景短网址替代长URL，在互联网网上传播和引用。例如QQ微博的url
前端基础知识JavaScript系列 - 25（Javascript本地存储）前端小白从0开始前端 javascript 开发语言
一、方式javaScript本地缓存的方法我们主要讲述以下四种：cookiesessionStoragelocalStorageindexedDBcookieCookie，类型为「小型文本文件」，指某些网站为了辨别用户身份而储存在用户本地终端上的数据。是为了解决HTTP无状态导致的问题作为一段一般不超过4KB的小型文本数据，它由一个名称（Name）、一个值（Value）和其它几个用于控制cooki
职星学院企业培训系统：引领线上培训新风尚
随着互联网技术的飞速发展和企业对员工培训需求的日益增长，线上培训系统逐渐成为企业提升员工能力、推动业务发展的重要工具。职星学院企业培训系统，作为一款集高效性、灵活性、个性化于一体的线上培训平台，正引领着线上培训的新风尚。一、系统概述职星学院企业培训系统是一个专为企业设计的在线教育平台，旨在满足企业对员工培训多样化、个性化的需求。系统支持跨平台访问，包括网页、移动端应用等，确保员工能够随时随地开展学
2025.最新java高频面试题（八股文） Java进阶八股文 java 算法 jvm spring spring boot spring cloud
1.String的底层实现是怎样的？1.String类由final修饰，不可以被继承2.底层是由char数组实现的3.value用final修饰，不能修改value的引用地址（value不可变）4.private修饰和成员变量没有提供setter接口，保证了不可以通过外部接口来修改String的值5.在JDK9中，将底层的char[]数组改为了byte[]数组存储。原因：char类型是2字节的，使
java nonematch_Java 使用anyMatch、allMatch与noneMatch方法 weixin_39680208 java nonematch
Java使用anyMatch、allMatch与noneMatch方法，用户希望确定流中是否有元素匹配Predicate，或全部元素匹配Predicate，或没有元素匹配Predicate。使用java.util.stream.Stream接口定义的anyMatch、allMatch与noneMatch方法，每种方法返回一个布尔值。Java使用anyMatch、allMatch与noneMatch
JavaScript性能优化代码示例突然暴富的我 || 比较富的我 javascript
JavaScript性能优化实战大纲性能优化的核心目标减少加载时间、提升渲染效率、降低内存占用、优化交互响应代码层面的优化实践避免全局变量污染，使用局部变量和模块化开发减少DOM操作频率，批量处理DOM更新使用事件委托替代大量事件监听器优化循环结构，减少不必要的计算使用WebWorkers处理密集型计算任务内存管理策略及时清除不再使用的对象引用避免内存泄漏，注意闭包使用场景使用弱引用（WeakMa
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
领域驱动设计核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Dubbo与Zookeeper核心解析 Java开发廖志伟 Java场景面试宝典 Dubbo Service Discovery Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
小程序领域开发语言的基础教程小程序开发2020 小程序开发语言 ai
小程序领域开发语言的基础教程：从0到1轻松入门关键词：小程序开发、WXML、WXSS、JavaScript、双线程模型、生命周期、组件化摘要：本文是针对小程序开发语言的零基础入门指南，通过生活类比、代码示例和实战案例，详细讲解小程序核心开发语言（WXML/WXSS/JavaScript）的原理、协作方式及实际应用。无论你是前端新手还是想转行小程序开发的小白，都能通过本文掌握小程序开发的“三板斧”，
ShardingSphere 架构解析 Java开发廖志伟 Java场景面试宝典 ShardingSphere Distributed Database Database Middleware
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
Kotlin编译流程 xiangxiongfly915 Kotlin kotlin
文章目录Kotlin编译流程Kotlin编译流程使用AS工具Kotlin与Java代码对比printlnKotlin类型类型推导字符串模板when表达式类抽象类接口数据类不设置默认值全设置默认值总结@JvmOverloadsKotlin编译流程Kotlin编译流程Kotlin代码经过编译器边后，生成Java字节码，这种字节码是专门为JVM设计的，JVM拿到字节码后，会根据特定的语法解析其中的内容，
离线命令行安装Android SDK components fanqi987 android
AndroidSDKcomponentsInstaller的国内网络不便性AndroidSDKcomponentsInstaller使用Google仓库，在安装某个新组件有时会阻塞网络。修改SDKUpdateSite国内镜像不方便，并且仓库滞后。使用全局网络代理也有喧宾夺主之嫌。命令行sdkmanager手动安装组件sdkmanager|AndroidStudio|AndroidDeveloper
八股文——JAVA基础：字符串拼接用“+” 还是 StringBuilder? Hellyc 八股文自用 java 开发语言
java中仅有两个操作符的重载就是用于字符串的拼接操作的：+与+=操作符+底层使用的是StringBuilder来进行实现的，+用于拼接的缺陷在于使用StringBuilder，本身线程不安全，其次在循环中使用+来拼接，会导致重复创建StringBuilder对象，导致空间的浪费。而在循环中使用StringBuilder就不会出现这个问题。
java复习 06 im_AMBER java 开发语言学习
线程还没学会，然后查漏补缺。再学一下泛型，下一篇博客写。1线程控制方法名说明staticvoidsleep(longmillis)使当前正在执行的线程停留（暂停执行）指定的毫秒数voidjoin()等待这个线程死亡voidsetDaemon(booleanon)将此线程标记为守护线程，当运行的线程都是守护线程时，Java虚拟机将退出sleep方法的应用，这里用trycatch包围packagePT
完美解决SSL访问认证 sun.security.validator.ValidatorException: PKIX path building failed cqwuliu jAVA工具 TCP/IP ssl 网络协议网络
一、创建createIgnoreVerifySSL绕过SSL、TLS证书importjavax.net.ssl.SSLContext;importjavax.net.ssl.TrustManager;importjavax.net.ssl.X509TrustManager;importjava.io.IOException;importjava.security.KeyManagementExce
java 导出pdf去除边框_docx4j生成pdf时，如何指定pdf的页边框
生成pdf：publicStringsavePdf(WordprocessingMLPackagewordMLPackage,Mapdata)throwsException{StringpdfDir=getFilePath()+".pdf";Filefile=newFile(pdfDir);FileUtils.createDir(file);//使用默认的FOSettingssettings.se
java 签名 ecdsa_数字签名算法ECDSA 哈全文 java 签名 ecdsa
一介绍ECDSA：EllipticCurvDigstalSignatureAlgorithm椭圆曲线数字签名算法。速度快、强度高、签名短二参数说明三代码实现packagecom.imooc.security.ecdsa;importjava.security.KeyFactory;importjava.security.KeyPair;importjava.security.KeyPairGene
java 签名 ecdsa_Java数字签名——ECDSA算法随缘惜情 java 签名 ecdsa
ECDSA例如微软产品的序列号的验证算法。EllipticCurveDigitalSignatureAlgorithm，椭圆曲线数字签名算法。速度快，强度高，签名短——————————————————————————————————密钥长度112～571默认256——————————————————————————————————NONEwithECDSA签名长度：128实现方：JDK/BCRIP
documents4j 使用教程惠悦颖
documents4j使用教程documents4jdocuments4jisaJavalibraryforconvertingdocumentsintoanotherdocumentformat项目地址:https://gitcode.com/gh_mirrors/do/documents4j1.项目介绍documents4j是一个Java库，用于将文档转换为另一种文档格式。它通过委托给任何能够
深入理解JavaScript ES6 Promise基本使用和进阶讲解 ScottePerk 前端 javascript es6 前端
一项新技术的出现一定是为了解决某个痛点问题的。ES6的Promise就是为了解决ES5在处理异步任务时所存在的问题。Promise是一个异步处理框架。Promise前夕——ES5对于异步任务的处理我们先来看看ES5是怎么处理异步任务的。主要的手段就是通过回调函数。回调函数是JavaScript本身就支持的机制。可以通过回调函数实现类似下面这个的网络请求过程。虽然这个函数的实现看起来代码有点不好看，
Java使用documents4j将word和excel转pdf 药岩工作中的那些问题 java word excel
pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3<dependency
Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
Python爬虫实战：研究sanitize库相关技术 ylfhpy 爬虫项目实战 python 爬虫网络开发语言安全 sanitize
1.引言1.1研究背景与意义在当今数字化时代，互联网已成为人们获取信息、交流互动的重要平台。随着Web2.0技术的发展，用户生成内容(UGC)、社交媒体嵌入、第三方插件等功能极大丰富了网页的内容和交互性，但也带来了严峻的安全挑战。根据Web应用安全联盟(WAS)的统计数据，2025年全球范围内因网页安全漏洞导致的数据泄露事件超过15万起，造成的经济损失高达250亿美元。其中，跨站脚本攻击(XSS)
Python爬虫实战：研究xmltodict库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 xmltodict
1.引言1.1研究背景与意义气象数据在农业生产、交通规划、灾害预警等多个领域具有重要应用价值。传统的气象数据获取方式主要依赖于气象部门发布的统计信息，存在更新不及时、数据维度有限等问题。随着互联网技术的发展，气象网站提供了丰富的实时气象数据，但这些数据通常以HTML、XML等非结构化或半结构化形式存在，难以直接利用。因此，开发高效的数据采集与解析系统具有重要的现实意义。1.2国内外研究现状网络爬虫
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

采访IK Analyzer 中文分词器开源项目作者林良益（十三）

目 录 [ - ]

采访IK Analyzer 中文分词器开源项目作者linliangyi2007

你可能感兴趣的:(java,互联网,Google,Lucene,全文检索,自然语言处理)

目录 [ - ]