努力就好其他的不管

HanLp的应用 - 转自GitHub开源代码介绍

HanLP是一系列模型与算法组成的NLP工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过工业界和学术界考验，配套书籍《自然语言处理入门》已经出版。目前，基于深度学习的HanLP 2.x已正式发布，次世代最先进的NLP技术，支持包括简繁中英日俄法德在内的104种语言上的联合任务。

HanLP提供下列功能：

中文分词
- HMM-Bigram（速度与精度最佳平衡；一百兆内存）
  - 最短路分词、N-最短路分词
- 由字构词（侧重精度，全世界最大语料库，可识别新词；适合NLP任务）
  - 感知机分词、CRF分词
- 词典分词（侧重速度，每秒数千万字符；省内存）
  - 极速词典分词
- 所有分词器都支持：
  - 索引全切分模式
  - 用户自定义词典
  - 兼容繁体中文
  - 训练用户自己的领域模型
词性标注
- HMM词性标注（速度快）
- 感知机词性标注、CRF词性标注（精度高）
命名实体识别
- 基于HMM角色标注的命名实体识别（速度快）
  - 中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别
- 基于线性模型的命名实体识别（精度高）
  - 感知机命名实体识别、CRF命名实体识别
关键词提取
- TextRank关键词提取
自动摘要
- TextRank自动摘要
短语提取
- 基于互信息和左右信息熵的短语提取
拼音转换
- 多音字、声母、韵母、声调
简繁转换
- 简繁分歧词（简体、繁体、臺灣正體、香港繁體）
文本推荐
- 语义推荐、拼音推荐、字词推荐
依存句法分析
- 基于神经网络的高性能依存句法分析器
- 基于ArcEager转移系统的柱搜索依存句法分析器
文本分类
- 情感分析
文本聚类
- KMeans、Repeated Bisection、自动推断聚类数目k
word2vec
- 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
- 文档语义相似度计算
语料库工具
- 部分默认模型训练自小型语料库，鼓励用户自行训练。所有模块提供训练接口，语料可参考98年人民日报语料库。

在提供丰富功能的同时，HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常方便。默认模型训练自全世界最大规模的中文语料库，同时自带一些语料处理工具，帮助用户训练自己的模型。

项目主页

《自然语言处理入门》、随书代码、在线演示、Python调用、Solr及Lucene插件、论坛、论文引用、更多信息。

下载与配置

方式一、Maven

为了方便用户，特提供内置了数据包的Portable版，只需在pom.xml加入：


    com.hankcs
    hanlp
    portable-1.8.2

零配置，即可使用基本功能（除由字构词、依存句法分析外的全部功能）。如果用户有自定义的需求，可以参考方式二，使用hanlp.properties进行配置（Portable版同样支持hanlp.properties）。

方式二、下载jar、data、hanlp.properties

HanLP将数据与程序分离，给予用户自定义的自由。

1、下载：data.zip

下载后解压到任意目录，接下来通过配置文件告诉HanLP数据包的位置。

HanLP中的数据分为词典和模型，其中词典是词法分析必需的，模型是句法分析必需的。

data
│
├─dictionary
└─model

用户可以自行增删替换，如果不需要句法分析等功能的话，随时可以删除model文件夹。

模型跟词典没有绝对的区别，隐马模型被做成人人都可以编辑的词典形式，不代表它不是模型。
GitHub代码库中已经包含了data.zip中的词典，直接编译运行自动缓存即可；模型则需要额外下载。

2、下载jar和配置文件：hanlp-release.zip

配置文件的作用是告诉HanLP数据包的位置，只需修改第一行

root=D:/JavaProjects/HanLP/

为data的父目录即可，比如data目录是/Users/hankcs/Documents/data，那么root=/Users/hankcs/Documents/ 。

最后将hanlp.properties放入classpath即可，对于多数项目，都可以放到src或resources目录下，编译时IDE会自动将其复制到classpath中。除了配置文件外，还可以使用环境变量HANLP_ROOT来设置root。安卓项目请参考demo。

如果放置不当，HanLP会提示当前环境下的合适路径，并且尝试从项目根目录读取数据集。

调用方法

HanLP几乎所有的功能都可以通过工具类HanLP快捷调用，当你想不起来调用方法时，只需键入HanLP.，IDE应当会给出提示，并展示HanLP完善的文档。

所有Demo都位于com.hankcs.demo下，比文档覆盖了更多细节，更新更及时，强烈建议运行一遍。此处仅列举部分常用接口。

1. 第一个Demo

System.out.println(HanLP.segment("你好，欢迎使用HanLP汉语处理包！"));

内存要求
- 内存120MB以上（-Xms120m -Xmx120m -Xmn64m），标准数据包（35万核心词库+默认用户词典），分词测试正常。全部词典和模型都是惰性加载的，不使用的模型相当于不存在，可以自由删除。
- HanLP对词典的数据结构进行了长期的优化，可以应对绝大多数场景。哪怕HanLP的词典上百兆也无需担心，因为在内存中被精心压缩过。如果内存非常有限，请使用小词典。HanLP默认使用大词典，同时提供小词典，请参考配置文件章节。
写给正在编译HanLP的开发者
- 如果你正在编译运行从Github检出的HanLP代码，并且没有下载data缓存，那么首次加载词典/模型会发生一个自动缓存的过程。
- 自动缓存的目的是为了加速词典载入速度，在下次载入时，缓存的词典文件会带来毫秒级的加载速度。由于词典体积很大，自动缓存会耗费一些时间，请耐心等待。
- 自动缓存缓存的不是明文词典，而是双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等数据结构。

2. 标准分词

List termList = StandardTokenizer.segment("商品和服务");
System.out.println(termList);

说明
- HanLP中有一系列“开箱即用”的静态分词器，以Tokenizer结尾，在接下来的例子中会继续介绍。
- HanLP.segment其实是对StandardTokenizer.segment的包装。
- 分词结果包含词性，每个词性的意思请查阅《HanLP词性标注集》。
算法详解
- 《词图的生成》

3. NLP分词

System.out.println(NLPTokenizer.segment("我新造一个词叫幻想乡你能识别并标注正确词性吗？"));
// 注意观察下面两个“希望”的词性、两个“晚霞”的词性
System.out.println(NLPTokenizer.analyze("我的希望是希望张晚霞的背影被晚霞映红").translateLabels());
System.out.println(NLPTokenizer.analyze("支援臺灣正體香港繁體：微软公司於1975年由比爾·蓋茲和保羅·艾倫創立。"));

说明
- NLP分词NLPTokenizer会执行词性标注和命名实体识别，由结构化感知机序列标注框架支撑。
- 默认模型训练自9970万字的大型综合语料库，是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果，面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的命名实体。

4. 索引分词

List termList = IndexTokenizer.segment("主副食品");
for (Term term : termList)
{
    System.out.println(term + " [" + term.offset + ":" + (term.offset + term.word.length()) + "]");
}

说明
- 索引分词IndexTokenizer是面向搜索引擎的分词器，能够对长词全切分，另外通过term.offset可以获取单词在文本中的偏移量。
- 任何分词器都可以通过基类Segment的enableIndexMode方法激活索引模式。

5. N-最短路径分词

Segment nShortSegment = new NShortSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);
Segment shortestSegment = new DijkstraSegment().enableCustomDictionary(false).enablePlaceRecognize(true).enableOrganizationRecognize(true);
String[] testCase = new String[]{
        "今天，刘志军案的关键人物,山西女商人丁书苗在市二中院出庭受审。",
        "刘喜杰石国祥会见吴亚琴先进事迹报告团成员",
        };
for (String sentence : testCase)
{
    System.out.println("N-最短分词：" + nShortSegment.seg(sentence) + "\n最短路分词：" + shortestSegment.seg(sentence));
}

说明
- N最短路分词器NShortSegment比最短路分词器慢，但是效果稍微好一些，对命名实体识别能力更强。
- 一般场景下最短路分词的精度已经足够，而且速度比N最短路分词器快几倍，请酌情选择。
算法详解
- 《N最短路径的Java实现与分词应用》

6. CRF分词

        CRFLexicalAnalyzer analyzer = new CRFLexicalAnalyzer();
        String[] tests = new String[]{
            "商品和服务",
            "上海华安工业（集团）公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观",
            "微软公司於1975年由比爾·蓋茲和保羅·艾倫創立，18年啟動以智慧雲端、前端為導向的大改組。" // 支持繁体中文
        };
        for (String sentence : tests)
        {
            System.out.println(analyzer.analyze(sentence));
        }

说明
- CRF对新词有很好的识别能力，但是开销较大。
算法详解
- 《CRF中文分词、词性标注与命名实体识别》

7. 极速词典分词

/**
 * 演示极速分词，基于AhoCorasickDoubleArrayTrie实现的词典分词，适用于“高吞吐量”“精度一般”的场合
 * @author hankcs
 */
public class DemoHighSpeedSegment
{
    public static void main(String[] args)
    {
        String text = "江西鄱阳湖干枯，中国最大淡水湖变成大草原";
        System.out.println(SpeedTokenizer.segment(text));
        long start = System.currentTimeMillis();
        int pressure = 1000000;
        for (int i = 0; i < pressure; ++i)
        {
            SpeedTokenizer.segment(text);
        }
        double costTime = (System.currentTimeMillis() - start) / (double)1000;
        System.out.printf("分词速度：%.2f字每秒", text.length() * pressure / costTime);
    }
}

说明
- 极速分词是词典最长分词，速度极其快，精度一般。
- 在i7-6700K上跑出了4500万字每秒的速度。
算法详解
- 《Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配》

8. 用户自定义词典

/**
 * 演示用户词典的动态增删
 *
 * @author hankcs
 */
public class DemoCustomDictionary
{
    public static void main(String[] args)
    {
        // 动态增加
        CustomDictionary.add("攻城狮");
        // 强行插入
        CustomDictionary.insert("白富美", "nz 1024");
        // 删除词语（注释掉试试）
//        CustomDictionary.remove("攻城狮");
        System.out.println(CustomDictionary.add("单身狗", "nz 1024 n 1"));
        System.out.println(CustomDictionary.get("单身狗"));

        String text = "攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰";  // 怎么可能噗哈哈！

        // AhoCorasickDoubleArrayTrie自动机扫描文本中出现的自定义词语
        final char[] charArray = text.toCharArray();
        CustomDictionary.parseText(charArray, new AhoCorasickDoubleArrayTrie.IHit()
        {
            @Override
            public void hit(int begin, int end, CoreDictionary.Attribute value)
            {
                System.out.printf("[%d:%d]=%s %s\n", begin, end, new String(charArray, begin, end - begin), value);
            }
        });

        // 自定义词典在所有分词器中都有效
        System.out.println(HanLP.segment(text));
    }
}

说明
- CustomDictionary是一份全局的用户自定义词典，可以随时增删，影响全部分词器。另外可以在任何分词器中关闭它。通过代码动态增删不会保存到词典文件。
- 中文分词≠词典，词典无法解决中文分词，Segment提供高低优先级应对不同场景，请参考FAQ。
追加词典
- CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt，用户可以在此增加自己的词语（不推荐）；也可以单独新建一个文本文件，通过配置文件CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典（推荐）。
- 始终建议将相同词性的词语放到同一个词典文件里，便于维护和分享。
词典格式
- 每一行代表一个单词，格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。
- 词典的默认词性默认是名词n，可以通过配置文件修改：全国地名大全.txt ns;如果词典路径后面空格紧接着词性，则该词典默认是该词性。
- 在统计分词中，并不保证自定义词典中的词一定被切分出来。用户可在理解后果的情况下通过Segment#enableCustomDictionaryForcing强制生效。
- 关于用户词典的更多信息请参考词典说明一章。
算法详解
- 《Trie树分词》
- 《Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配》

9. 中国人名识别

String[] testCase = new String[]{
        "签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。",
        "王国强、高峰、汪洋、张朝阳光着头、韩寒、小四",
        "张浩和胡健康复员回家了",
        "王总和小丽结婚了",
        "编剧邵钧林和稽道青说",
        "这里有关天培的有关事迹",
        "龚学平等领导,邓颖超生前",
        };
Segment segment = HanLP.newSegment().enableNameRecognize(true);
for (String sentence : testCase)
{
    List termList = segment.seg(sentence);
    System.out.println(termList);
}

说明
- 目前分词器基本上都默认开启了中国人名识别，比如HanLP.segment()接口中使用的分词器等等，用户不必手动开启；上面的代码只是为了强调。
- 有一定的误命中率，比如误命中关键年，则可以通过在data/dictionary/person/nr.txt加入一条关键年 A 1来排除关键年作为人名的可能性，也可以将关键年作为新词登记到自定义词典中。
- 如果你通过上述办法解决了问题，欢迎向我提交pull request，词典也是宝贵的财富。
- 建议NLP用户使用感知机或CRF词法分析器，精度更高。
算法详解
- 《实战HMM-Viterbi角色标注中国人名识别》

10. 音译人名识别

String[] testCase = new String[]{
                "一桶冰水当头倒下，微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克全都不惜湿身入镜，这些硅谷的科技人，飞蛾扑火似地牺牲演出，其实全为了慈善。",
                "世界上最长的姓名是简森·乔伊·亚历山大·比基·卡利斯勒·达夫·埃利奥特·福克斯·伊维鲁莫·马尔尼·梅尔斯·帕特森·汤普森·华莱士·普雷斯顿。",
        };
Segment segment = HanLP.newSegment().enableTranslatedNameRecognize(true);
for (String sentence : testCase)
{
    List termList = segment.seg(sentence);
    System.out.println(termList);
}

说明
- 目前分词器基本上都默认开启了音译人名识别，用户不必手动开启；上面的代码只是为了强调。
算法详解
- 《层叠隐马模型下的音译人名和日本人名识别》

11. 日本人名识别

String[] testCase = new String[]{
        "北川景子参演了林诣彬导演的《速度与激情3》",
        "林志玲亮相网友:确定不是波多野结衣？",
};
Segment segment = HanLP.newSegment().enableJapaneseNameRecognize(true);
for (String sentence : testCase)
{
    List termList = segment.seg(sentence);
    System.out.println(termList);
}

说明
- 目前标准分词器默认关闭了日本人名识别，用户需要手动开启；这是因为日本人名的出现频率较低，但是又消耗性能。
算法详解
- 《层叠隐马模型下的音译人名和日本人名识别》

12. 地名识别

String[] testCase = new String[]{
        "武胜县新学乡政府大楼门前锣鼓喧天",
        "蓝翔给宁夏固原市彭阳县红河镇黑牛沟村捐赠了挖掘机",
};
Segment segment = HanLP.newSegment().enablePlaceRecognize(true);
for (String sentence : testCase)
{
    List termList = segment.seg(sentence);
    System.out.println(termList);
}

说明
- 目前标准分词器都默认关闭了地名识别，用户需要手动开启；这是因为消耗性能，其实多数地名都收录在核心词典和用户自定义词典中。
- 在生产环境中，能靠词典解决的问题就靠词典解决，这是最高效稳定的方法。
- 建议对命名实体识别要求较高的用户使用感知机词法分析器。
算法详解
- 《实战HMM-Viterbi角色标注地名识别》

13. 机构名识别

String[] testCase = new String[]{
    "我在上海林原科技有限公司兼职工作，",
    "我经常在台川喜宴餐厅吃饭，",
    "偶尔去地中海影城看电影。",
};
Segment segment = HanLP.newSegment().enableOrganizationRecognize(true);
for (String sentence : testCase)
{
    List termList = segment.seg(sentence);
    System.out.println(termList);
}

说明
- 目前分词器默认关闭了机构名识别，用户需要手动开启；这是因为消耗性能，其实常用机构名都收录在核心词典和用户自定义词典中。
- HanLP的目的不是演示动态识别，在生产环境中，能靠词典解决的问题就靠词典解决，这是最高效稳定的方法。
- 建议对命名实体识别要求较高的用户使用感知机词法分析器。
算法详解
- 《层叠HMM-Viterbi角色标注模型下的机构名识别》

14. 关键词提取

String content = "程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员，但两者的界限并不非常清楚，特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。";
List keywordList = HanLP.extractKeyword(content, 5);
System.out.println(keywordList);

说明
- 内部采用TextRankKeyword实现，用户可以直接调用TextRankKeyword.getKeywordList(document, size)
算法详解
- 《TextRank算法提取关键词的Java实现》

15. 自动摘要

String document = "算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法、厄米变形模型、随机森林算法。\n" +
        "算法可以宽泛的分为三类，\n" +
        "一，有限的确定性算法，这类算法在有限的一段时间内终止。他们可能要花很长时间来执行指定的任务，但仍将在一定的时间内终止。这类算法得出的结果常取决于输入值。\n" +
        "二，有限的非确定算法，这类算法在有限的时间内终止。然而，对于一个（或一些）给定的数值，算法的结果并不是唯一的或确定的。\n" +
        "三，无限的算法，是那些由于没有定义终止定义条件，或定义的条件无法由输入的数据满足而不终止运行的算法。通常，无限算法的产生是由于未能确定的定义终止条件。";
List sentenceList = HanLP.extractSummary(document, 3);
System.out.println(sentenceList);

说明
- 内部采用TextRankSentence实现，用户可以直接调用TextRankSentence.getTopSentenceList(document, size)。
算法详解
- 《TextRank算法自动摘要的Java实现》

16. 短语提取

String text = "算法工程师\n" +
                "算法（Algorithm）是一系列解决问题的清晰指令，也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n" +
                "\n" +
                "1职位简介\n" +
                "算法工程师是一个非常高端的职位；\n" +
                "专业要求：计算机、电子、通信、数学等相关专业；\n" +
                "学历要求：本科及其以上的学历，大多数是硕士学历及其以上；\n" +
                "语言要求：英语要求是熟练，基本上能阅读国外专业书刊；\n" +
                "必须掌握计算机相关知识，熟练使用仿真工具MATLAB等，必须会一门编程语言。\n" +
                "\n" +
                "2研究方向\n" +
                "视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师\n" +
                "\n" +
                "3目前国内外状况\n" +
                "目前国内从事算法研究的工程师不少，但是高级算法工程师却很少，是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。\n" +
                "在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法：机器视觉成为此类算法研究的核心；另外还有2D转3D算法(2D-to-3D conversion)，去隔行算法(de-interlacing)，运动估计运动补偿算法(Motion estimation/Motion Compensation)，去噪算法(Noise Reduction)，缩放算法(scaling)，锐化处理算法(Sharpness)，超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。\n" +
                "在通信物理层等一维信息领域目前常用的算法：无线领域的RRM、RTT，传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n" +
                "另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n" +
                "算法工程师逐渐往人工智能方向发展。";
List phraseList = HanLP.extractPhrase(text, 10);
System.out.println(phraseList);

说明
- 内部采用MutualInformationEntropyPhraseExtractor实现，用户可以直接调用MutualInformationEntropyPhraseExtractor.extractPhrase(text, size)。
算法详解
- 《基于互信息和左右信息熵的短语提取识别》

17. 拼音转换

/**
 * 汉字转拼音
 * @author hankcs
 */
public class DemoPinyin
{
    public static void main(String[] args)
    {
        String text = "重载不是重任";
        List pinyinList = HanLP.convertToPinyinList(text);
        System.out.print("原文,");
        for (char c : text.toCharArray())
        {
            System.out.printf("%c,", c);
        }
        System.out.println();

        System.out.print("拼音（数字音调）,");
        for (Pinyin pinyin : pinyinList)
        {
            System.out.printf("%s,", pinyin);
        }
        System.out.println();

        System.out.print("拼音（符号音调）,");
        for (Pinyin pinyin : pinyinList)
        {
            System.out.printf("%s,", pinyin.getPinyinWithToneMark());
        }
        System.out.println();

        System.out.print("拼音（无音调）,");
        for (Pinyin pinyin : pinyinList)
        {
            System.out.printf("%s,", pinyin.getPinyinWithoutTone());
        }
        System.out.println();

        System.out.print("声调,");
        for (Pinyin pinyin : pinyinList)
        {
            System.out.printf("%s,", pinyin.getTone());
        }
        System.out.println();

        System.out.print("声母,");
        for (Pinyin pinyin : pinyinList)
        {
            System.out.printf("%s,", pinyin.getShengmu());
        }
        System.out.println();

        System.out.print("韵母,");
        for (Pinyin pinyin : pinyinList)
        {
            System.out.printf("%s,", pinyin.getYunmu());
        }
        System.out.println();

        System.out.print("输入法头,");
        for (Pinyin pinyin : pinyinList)
        {
            System.out.printf("%s,", pinyin.getHead());
        }
        System.out.println();
    }
}

说明
- HanLP不仅支持基础的汉字转拼音，还支持声母、韵母、音调、音标和输入法首字母首声母功能。
- HanLP能够识别多音字，也能给繁体中文注拼音。
- 最重要的是，HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie，性能大幅提升，能够提供毫秒级的响应速度！
算法详解
- 《汉字转拼音与简繁转换的Java实现》

18. 简繁转换

/**
 * 简繁转换
 * @author hankcs
 */
public class DemoTraditionalChinese2SimplifiedChinese
{
    public static void main(String[] args)
    {
        System.out.println(HanLP.convertToTraditionalChinese("用笔记本电脑写程序"));
        System.out.println(HanLP.convertToSimplifiedChinese("「以後等妳當上皇后，就能買士多啤梨慶祝了」"));
    }
}

说明
- HanLP能够识别简繁分歧词，比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字，HanLP可以。
算法详解
- 《汉字转拼音与简繁转换的Java实现》

19. 文本推荐

/**
 * 文本推荐(句子级别，从一系列句子中挑出与输入句子最相似的那一个)
 * @author hankcs
 */
public class DemoSuggester
{
    public static void main(String[] args)
    {
        Suggester suggester = new Suggester();
        String[] titleArray =
        (
                "威廉王子发表演说 呼吁保护野生动物\n" +
                "《时代》年度人物最终入围名单出炉 普京马云入选\n" +
                "“黑格比”横扫菲：菲吸取“海燕”经验及早疏散\n" +
                "日本保密法将正式生效 日媒指其损害国民知情权\n" +
                "英报告说空气污染带来“公共健康危机”"
        ).split("\\n");
        for (String title : titleArray)
        {
            suggester.addSentence(title);
        }

        System.out.println(suggester.suggest("发言", 1));       // 语义
        System.out.println(suggester.suggest("危机公共", 1));   // 字符
        System.out.println(suggester.suggest("mayun", 1));      // 拼音
    }
}

说明
- 在搜索引擎的输入框中，用户输入一个词，搜索引擎会联想出最合适的搜索词，HanLP实现了类似的功能。
- 可以动态调节每种识别器的权重

20. 语义距离

/**
 * 演示词向量的训练与应用
 *
 * @author hankcs
 */
public class DemoWord2Vec
{
    public static void main(String[] args) throws IOException
    {
        WordVectorModel wordVectorModel = trainOrLoadModel();
        printNearest("中国", wordVectorModel);
        printNearest("美丽", wordVectorModel);
        printNearest("购买", wordVectorModel);

        // 文档向量
        DocVectorModel docVectorModel = new DocVectorModel(wordVectorModel);
        String[] documents = new String[]{
            "山东苹果丰收",
            "农民在江苏种水稻",
            "奥运会女排夺冠",
            "世界锦标赛胜出",
            "中国足球失败",
        };

        System.out.println(docVectorModel.similarity(documents[0], documents[1]));
        System.out.println(docVectorModel.similarity(documents[0], documents[4]));

        for (int i = 0; i < documents.length; i++)
        {
            docVectorModel.addDocument(i, documents[i]);
        }

        printNearestDocument("体育", documents, docVectorModel);
        printNearestDocument("农业", documents, docVectorModel);
        printNearestDocument("我要看比赛", documents, docVectorModel);
        printNearestDocument("要不做饭吧", documents, docVectorModel);
    }
}

说明
- word2vec文档
- 《word2vec原理推导与代码分析》

21. 依存句法分析

/**
 * 依存句法分析（MaxEnt和神经网络句法模型需要-Xms1g -Xmx1g -Xmn512m）
 * @author hankcs
 */
public class DemoDependencyParser
{
    public static void main(String[] args)
    {
        CoNLLSentence sentence = HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。");
        System.out.println(sentence);
        // 可以方便地遍历它
        for (CoNLLWord word : sentence)
        {
            System.out.printf("%s --(%s)--> %s\n", word.LEMMA, word.DEPREL, word.HEAD.LEMMA);
        }
        // 也可以直接拿到数组，任意顺序或逆序遍历
        CoNLLWord[] wordArray = sentence.getWordArray();
        for (int i = wordArray.length - 1; i >= 0; i--)
        {
            CoNLLWord word = wordArray[i];
            System.out.printf("%s --(%s)--> %s\n", word.LEMMA, word.DEPREL, word.HEAD.LEMMA);
        }
        // 还可以直接遍历子树，从某棵子树的某个节点一路遍历到虚根
        CoNLLWord head = wordArray[12];
        while ((head = head.HEAD) != null)
        {
            if (head == CoNLLWord.ROOT) System.out.println(head.LEMMA);
            else System.out.printf("%s --(%s)--> ", head.LEMMA, head.DEPREL);
        }
    }
}

说明
- 内部采用NeuralNetworkDependencyParser实现，用户可以直接调用NeuralNetworkDependencyParser.compute(sentence)
- 也可以调用基于ArcEager转移系统的柱搜索依存句法分析器KBeamArcEagerDependencyParser
算法详解
- 《基于神经网络分类模型与转移系统的判决式依存句法分析器》

词典说明

本章详细介绍HanLP中的词典格式，满足用户自定义的需要。HanLP中有许多词典，它们的格式都是相似的，形式都是文本文档，随时可以修改。

基本格式

词典分为词频词性词典和词频词典。

词频词性词典（如CoreNatureDictionary.txt）
- 每一行代表一个单词，格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ...。
- 支持省略词性和频次，直接一行一个单词。
- .txt词典文件的分隔符为空格或制表符，所以不支持含有空格的词语。如果需要支持空格，请使用英文逗号,分割的纯文本.csv文件。在使用Excel等富文本编辑器时，则请注意保存为纯文本形式。
词频词典（如CoreNatureDictionary.ngram.txt）
- 每一行代表一个单词或条目，格式遵从[单词] [单词的频次]。
- 每一行的分隔符为空格或制表符。

少数词典有自己的专用格式，比如同义词词典兼容《同义词词林扩展版》的文本格式，而转移矩阵词典则是一个csv表格。

下文主要介绍通用词典，如不注明，词典特指通用词典。

数据结构

Trie树（字典树）是HanLP中使用最多的数据结构，为此，我实现了通用的Trie树，支持泛型、遍历、储存、载入。

用户自定义词典采用AhoCorasickDoubleArrayTrie和二分Trie树储存，其他词典采用基于双数组Trie树(DoubleArrayTrie)实现的AC自动机AhoCorasickDoubleArrayTrie。关于一些常用数据结构的性能评估，请参考wiki。

储存形式

词典有两个形态：文本文件(filename.txt)和缓存文件(filename.txt.bin或filename.txt.trie.dat和filename.txt.trie.value)。

文本文件
- 采用明文储存，UTF-8编码，CRLF换行符。
缓存文件
- 就是一些二进制文件，通常在文本文件的文件名后面加上.bin表示。有时候是.trie.dat和.trie.value。后者是历史遗留产物，分别代表trie树的数组和值。
- 如果你修改了任何词典，只有删除缓存才能生效。

修改方法

HanLP的核心词典训练自人民日报2014语料，语料不是完美的，总会存在一些错误。这些错误可能会导致分词出现奇怪的结果，这时请打开调试模式排查问题：

HanLP.Config.enableDebug();

核心词性词频词典
- 比如你在data/dictionary/CoreNatureDictionary.txt中发现了一个不是词的词，或者词性标注得明显不对，那么你可以修改它，然后删除缓存文件使其生效。
- 目前CoreNatureDictionary.ngram.txt的缓存依赖于CoreNatureDictionary.txt的缓存，修改了后者之后必须同步删除前者的缓存，否则可能出错
核心二元文法词典
- 二元文法词典data/dictionary/CoreNatureDictionary.ngram.txt储存的是两个词的接续，如果你发现不可能存在这种接续时，删掉即可。
- 你也可以添加你认为合理的接续，但是这两个词必须同时在核心词典中才会生效。
命名实体识别词典
- 基于角色标注的命名实体识别比较依赖词典，所以词典的质量大幅影响识别质量。
- 这些词典的格式与原理都是类似的，请阅读相应的文章或代码修改它。

若还有疑问，请参考《自然语言处理入门》相应章节。如果问题解决了，欢迎向我提交一个pull request，这是我在代码库中保留明文词典的原因，众人拾柴火焰高！

《自然语言处理入门》

一本配套HanLP的NLP入门书，基础理论与生产代码并重，Python与Java双实现。从基本概念出发，逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解，比较了它们的优缺点和适用场景，同时详细演示生产级成熟代码，助你真正将自然语言处理应用在生产环境中。

《自然语言处理入门》由南方科技大学数学系创系主任夏志宏、微软亚洲研究院副院长周明、字节跳动人工智能实验室总监李航、华为诺亚方舟实验室语音语义首席科学家刘群、小米人工智能实验室主任兼NLP首席科学家王斌、中国科学院自动化研究所研究员宗成庆、清华大学副教授刘知远、北京理工大学副教授张华平和52nlp作序推荐。感谢各位前辈老师，希望这个项目和这本书能成为大家工程和学习上的“蝴蝶效应”，帮助大家在NLP之路上蜕变成蝶。

版权

HanLP 的授权协议为 Apache License 2.0，可免费用做商业用途。请在产品说明中附加HanLP的链接和授权协议。HanLP受版权法保护，侵权必究。

自然语义（青岛）科技有限公司

HanLP从v1.7版起独立运作，由自然语义（青岛）科技有限公司作为项目主体，主导后续版本的开发，并拥有后续版本的版权。

大快搜索

HanLP v1.3~v1.65版由大快搜索主导开发，继续完全开源，大快搜索拥有相关版权。

上海林原公司

HanLP 早期得到了上海林原公司的大力支持，并拥有1.28及前序版本的版权，相关版本也曾在上海林原公司网站发布。

其他版权方

实施上由个人维护，欢迎任何人与任何公司向本项目开源模块。
充分尊重所有版权方的贡献，本项目不占有用户贡献模块的版权。

你可能感兴趣的:(架构之路,自然语言处理,分词,hanlp,深度学习,搜索匹配)

短剧小程序的「技术革命」：从「粗放生长」到「精准运营」 weixin_lynhgworld 小程序
随着短剧行业进入「存量竞争」阶段，技术能力正成为小程序的核心竞争力。从内容推荐到用户留存，从广告变现到IP开发，每一环节都需要数据驱动和算法优化。一、智能推荐：让「用户找到剧」变成「剧找到用户」传统短剧平台依赖标签匹配，而小程序通过多维度数据实现精准推荐：「情绪图谱」分析：记录用户观看时的快进、暂停、重复播放等行为，构建情绪波动曲线；「场景化推荐」：根据时间（如深夜）、地点（如地铁）、设备（如手机
Python正则表达式
正则表达式是文本处理的强大工具，本文将系统全面地介绍正则表达式的所有知识点，结合Python的re模块，帮助读者从零开始掌握正则表达式的使用。1.正则表达式基础概念1.1什么是正则表达式？正则表达式（RegularExpression，简称regex或RE）是一种用于描述字符串匹配规则的表达式，它并不是Python特有的，而是计算机科学中的一个通用概念。核心功能：验证：检查字符串是否符合特定格式（
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
2022-09-24 机器人胃癌手术带来更好的结果吗？朗月斋主
胃癌机器人胃切除术(RG)的初步经验证明了良好的短期结果，表明RG是腹腔镜胃切除术(LG)的有效替代方案。然而，关于胃癌RG术后长期生存和复发的数据尚未见报道。本研究的目的是评估RG与LG后的长期结果。方法：回顾性评估了2005年7月至2009年12月期间分别接受RG或LG的313名和524名胃癌患者。比较了长期结果使用整个队列和倾向评分匹配队列。结果：整个队列分析显示5年总生存期(OS)或无复发
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
人脸检测算法——SCRFD 海绵波波107 #计算机视觉算法计算机视觉
SCRFD算法核心解析1.算法定义与背景SCRFD（SampleandComputationRedistributionforEfficientFaceDetection）由JiaGuo等人于2021年在arXiv提出，是一种高效、高精度的人脸检测算法，其核心创新在于：双重重分配策略：样本重分配（SR）：动态增强关键训练阶段的样本数据。计算重分配（CR）：通过神经架构搜索（NAS）优化骨干网络（B
【leetcode-字符串】单词搜索 II 程序员小2
【leetcode-字符串】单词搜索II题目：给定一个二维网格board和一个字典中的单词列表words，找出所有同时在二维网格和字典中出现的单词。单词必须按照字母顺序，通过相邻的单元格内的字母构成，其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的字母在一个单词中不允许被重复使用。示例:输入:words=["oath","pea","eat","rain"]andboard=[
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
美团外卖红包如何每日免费领取,看这里就行测评君高省
在美团外卖中我们通过领到一些红包的方法购买到比较便宜的产品，红包怎么领坚信针对新客户也还是不会操作的，实际上只需寻找美团卡券就能领红包了。美团红包怎么领：方法一：1、首先打开美团，点击右下角“我的”2、接着点开上面的“红包卡券”3、再点击其中的“免费领券”4、进入后，如果有可用的红包就可以点击抢了。5、抢到后，在红包卡券中点击“立即使用”就可以了。方法二：1、打开手机应用商店搜索“高省”下载【高省
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
C/C++语言函数查询大全：中文版手册关然
本文还有配套的精品资源，点击获取简介：本资源为C语言和C++编程语言提供了详尽的函数查询手册，旨在帮助开发者高效地查找和理解函数用法。其中包含了C语言的基础函数及其用法，以及C++的面向对象编程支持和标准库。手册以CHM格式提供，方便快速搜索和查看。同时介绍了C语言与C++的联系与区别，强调了面向对象和过程化编程的不同，以及两者结合使用的场景。对于不同经验层次的开发者，这些手册都是提升编程技能和日
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
next.js 如何实现动态路由？
在Next.js12中，动态路由和参数传递主要通过文件系统路由（File-systemRouting）实现。以下是详细步骤和示例：一、创建动态路由‌文件命名规则‌在pages目录下创建文件名用[参数名].js格式的文件，例如：pages/posts/[id].js//单个参数pages/[category]/[id].js//多段参数‌匹配的URL示例‌/posts/123→id:'123'/ne
头条搜索极速版邀请码是多少-2024头条搜索极速版邀请码怎么填写熊熊福利
头条搜索极速版邀请码是多少呢？拉到文章末尾就可以看到！在文章的结尾可以看到头条搜索极速版邀请码是多少。头条搜索极速版邀请码怎么填写第1步首先打开【头条搜索极速版】客户端，然后点击右下角底部【我的】第2步接着点击去领钱，任务栏里面找到【填写邀请码】右侧的【去填写】第3步再输入邀请码，最后点击【立即领取】即可。2024年头条搜索极速版为了回馈广大用户朋友的支持和厚爱，特推出邀请好友填写邀请码来获得一系
高省是什么平台？加入高省赚钱需要什么条件? 高省APP大九
高省是什么平台高省安全吗？高省app，实现你的赚钱梦想，打拼两年的我为大家详细介绍一下高省到底是什么平台。【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码999999，注册送2皇冠会员，送万元推广大礼包。下面继续跟大家聊聊高省有什么好处？1学习新的赚钱方法。您可以通过下载高省应用程序独立搜索优惠券，也可以通过加入代理商分享和赚钱。用户黏性高，不需要维护
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
Python设计模式：适配模式 niuguangshuo python基础 python 设计模式开发语言
1.适配模式（AdapterPattern）详解适配模式（AdapterPattern）是一种结构型设计模式，它允许将一个类的接口转换成客户端所期望的另一种接口。适配模式使得原本由于接口不兼容而无法一起工作的类可以协同工作。换句话说，适配模式充当了一个桥梁，允许不同接口的类之间进行交互。在软件开发中，常常会遇到需要使用现有类的情况，但这些类的接口与我们需要的接口不匹配。适配模式提供了一种解决方案，
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
做好销售之道：抛弃打工者心态，拥有创业者思维！附赠销售秘籍启哥笔记
好习惯会成就你，坏习惯正慢慢毁掉你......销售是靠提成吃饭的，有的销售干得风生水起，一个月赚三、五万，甚至上十万，看起来毫不费力；有的销售看上去很努力，却偏偏拿不到与之相匹配的好业绩，难免会问自己一句，到底是哪里出了问题？归根结底，普通销售业绩迟迟未能突破的原因，一是没有掌握足够灵活和娴熟的销售技巧，二是自己养成的坏习惯正在不知不觉把自己毁掉。坏习惯貌似不起眼，实际上却顽强而巨大，很大程度上成
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
头条搜索极速版邀请码是多少，新的头条搜索极速版邀请码怎么填？资源共享猫
在当今信息爆炸的时代，搜索引擎已经成为我们获取信息、解决问题的重要工具。然而，面对琳琅满目的搜索引擎，用户往往难以选择。此时，头条搜索极速版应运而生，凭借其独特的功能和优秀的用户体验，迅速在搜索引擎市场中占据了一席之地。更令人兴奋的是，通过输入邀请码，用户可以享受到更多的特权和福利。今天，就让我们一起来探索头条搜索极速版邀请码大全的奥秘，看看它是如何为我们的搜索体验锦上添花的。一、头条搜索极速版的
Ubuntu 安装 Gitlab Kesling 服务部署 ubuntu gitlab linux
Ubuntu安装Gitlab安装依赖打开终端，运行如下命令：sudoaptupdatesudoaptupgradesudoaptinstallcurlopenssh-serverca-certificatespostfix安装GitLab前往GitLab官网，需要根据服务器系统，搜索需要安装的版本号。根据官网提示下载源文件，执行如命令curl-shttps://packages.gitlab.co
C++二叉搜索树 WangJiaLeLeLeLe c++开发语言 c语言二叉搜索树
目录一、基本介绍二、二叉搜索树增删查的代码实现（_key-_value型的二叉搜索树）一、基本介绍二叉搜索树是一棵空树，或者是具有以下性质的二叉树：1、若左子树不为空，则左子树上所有节点的值都小于等于根节点的值2、若右子树不为空，则右子树上所有节点的值都大于等于根节点的值3、他的左右子树也分别为二叉搜索树——和堆还不一样，它不区分左右子树，要么都小，要么都大，或者相等二叉搜索树的结构决定了查找一个
头条搜索极速版邀请码是多少？头条搜索极速版邀请码填写流程介绍熊熊福利
头条搜索极速版邀请码是多少呢？拉到文章末尾就可以看到！在文章的结尾可以看到头条搜索极速版邀请码是多少。头条搜索极速版邀请码怎么填写第1步首先打开【头条搜索极速版】客户端，然后点击右下角底部【我的】第2步接着点击去领钱，任务栏里面找到【填写邀请码】右侧的【去填写】第3步再输入邀请码，最后点击【立即领取】即可。2024年头条搜索极速版为了回馈广大用户朋友的支持和厚爱，特推出邀请好友填写邀请码来获得一系
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo