KnightTen

中文 NLP 工具总结

文章目录

中文 NLP 工具总结

1. Jieba 分词

1.1 简介
1.2 模型原理
1.3 安装
1.4 使用
1.5 分词评测

2. pyltp——哈工大

2.1 简介
2.2 模型原理

2.2.1 分词
2.2.2 词性标注
2.2.3 依存分析

2.3 安装
2.4 使用

2.4.1 分词
2.4.2 词性标注
2.4.3 依存分析
2.4.4 分词、词性标注和依存分析的整合

2.5 分词评测

3. thulca——清华

3.1 简介
3.2 模型原理
3.3 安装
3.4 使用
3.5 分词评测

4. NLPIR —— 中科院

4.1 简介
4.2 模型原理
4.3 安装
4.4 使用
4.5 分词评测

5. Zpar —— 新加坡科技大学

5.1 简介
5.2 模型原理
5.3 安装
5.4 使用

5.4.1 训练
5.4.2 使用训练的模型进行分词

5.5 分词评测

6. CoreNLP —— 斯坦福大学

6.1 简介
6.2 模型原理
6.3——6.4 安装与使用
6.5 分词评测

7. Hanlp —— 开源库

7.1 简介
7.2 模型原理
7.3 安装
7.4 使用
7.5 分词评测

8. 对比总结

8.1 分词对比
8.2 各个工具的词性标注体系
8.3 各个工具所支持的功能

9. 附录

中文 NLP 工具总结

前言： 最近由于实验室研究需要，需要调研一下目前已有的中文 NLP 工具，于是在调研完了之后就写了这篇总结，如果哪里有错误还请指出。

1. Jieba 分词

1.1 简介

官网介绍：“结巴”中文分词：做最好的 Python 中文分词组件

但是不是最好的呢？详情见最后的横向对比。

GitHub地址：https://github.com/fxsjy/jieba

1.2 模型原理

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法

1.3 安装

安装方式很简单，只要一个命令即可：

pip install jieba 
#或者
pip3 install jieba

1.4 使用

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

输出：

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

1.5 分词评测

	ctb6	msra	pku
jieba	80.79	81.45	81.82

2. pyltp——哈工大

2.1 简介

pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

官网：https://ltp.readthedocs.io/zh_CN/latest/begin.html

官方pyltp介绍：https://pyltp.readthedocs.io/zh_CN/develop/api.html

标注体系等详细介绍：http://www.ltp-cloud.com/intro

GitHub 主页：https://github.com/HIT-SCIR/pyltp

2.2 模型原理

2.2.1 分词

基于字的序列标注，对于输入句子的字序列，模型给句子中的每个字标注一个标识词边界的标记，通过机器学习算法框架从标注数据中学习参数。

2.2.2 词性标注

与分词模块相同，将词性标注任务建模为基于词的序列标注问题。对于输入句子的词序列，模型给句子中的每个词标注一个标识词边界的标记。

2.2.3 依存分析

依存句法分析模块的主要算法依据神经网络依存句法分析算法，Chen and Manning (2014)。同时加入丰富的全局特征和聚类特征。在模型训练时，我们也参考了Yoav等人关于dynamic oracle的工作。

2.3 安装

安装 pyltp 的包

pip install pyltp

下载模型文件：https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%2F

目前最新的模型是 3.4.0 ，解压之……

2.4 使用

2.4.1 分词

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/home/username/pyltp/ltp_model'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型
words = segmentor.segment('元芳你怎么看')  # 分词
print(list(words))
for word in list(words):
    print(word)
segmentor.release()  # 释放模型

输出：

['元芳', '你', '怎么', '看']
元芳
你
怎么
看

2.4.2 词性标注

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/home/knight/pyltp/ltp_model'  # ltp模型目录的路径
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 词性标注模型路径，模型名称为`pos.model`

from pyltp import Postagger
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']  # 分词结果
postags = postagger.postag(words)  # 词性标注

print('\t'.join(postags))
postagger.release()  # 释放模型

输出：

nh	r	r	v

2.4.3 依存分析

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/home/username/pyltp/ltp_model'  # ltp模型目录的路径
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 依存句法分析模型路径，模型名称为`parser.model`

from pyltp import Parser
parser = Parser() # 初始化实例
parser.load(par_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']
postags = ['nh', 'r', 'r', 'v']
arcs = parser.parse(words, postags)  # 句法分析

print("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs))
parser.release()  # 释放模型

输出：

4:SBV	4:SBV	4:ADV	0:HED

2.4.4 分词、词性标注和依存分析的整合

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = '/home/username/pyltp/ltp_model'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`

pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 词性标注模型路径，模型名称为`pos.model`

parse_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 词性标注模型路径，模型名称为`parser.model`

from pyltp import Segmentor, Postagger, Parser

class PyltpTool:

    def __init__(self, filname, corpus_name):
        self.filname = filname
        self.corpus_name = corpus_name
        self.segmentor = Segmentor()  # 初始化实例
        self.segmentor.load(cws_model_path)  # 加载模型
        self.postagger = Postagger()
        self.postagger.load(pos_model_path)
        self.parser = Parser()
        self.parser.load(parse_model_path)
        self.raw_data = []
        self.seg_sentences= []
        self.pos_tags = []
        self.deps = []

    def read_data_from_file(self):
        with open(self.filname, encoding='utf-8') as f_obj:
            data = f_obj.readlines()
            for row in data:
                self.raw_data.append(row.rstrip())
        print(self.raw_data)

    def get_seg_sentences(self):
        for sentence in self.raw_data:
            seg_sentence = self.segmentor.segment(sentence)
            self.seg_sentences.append(list(seg_sentence)) 
        print(self.seg_sentences)
        self.write_to_file(self.seg_sentences, "pyltp_" + self.corpus_name + "_seg_sentences.txt")

    def get_pos_tags(self):
        for seg_sentence in self.seg_sentences:
            pos_tag = self.postagger.postag(seg_sentence)
            self.pos_tags.append(list(pos_tag))
        print(self.pos_tags)
        self.write_to_file(self.pos_tags, "pyltp_" + self.corpus_name + "_pos_tags.txt")

    def get_deps(self):
        index = 0
        while index < len(self.pos_tags):
            dep = self.parser.parse(self.seg_sentences[index], self.pos_tags[index])
            dep_list = [str(dep_info.head) for dep_info in dep]
            self.deps.append(dep_list)
            index += 1
        print(self.deps)
        self.write_to_file(self.deps, "pyltp_" + self.corpus_name + "_deps.txt")

    def write_to_file(self, data, filename):
        with open(filename, 'w', encoding='utf-8') as f_obj:
            for row in data:
                for char in row:
                    f_obj.write(char + " ")
                f_obj.write('\n')
            
    def realease(self):
        self.segmentor.release()
        self.postagger.release()
        self.parser.release()

#输入存放一行一行句子的文件，分别输出分词、词性标注和依存分析三个文件。
ctb6_pyltp_tool = PyltpTool("raw_ctb6_test.txt", "ctb6")
ctb6_pyltp_tool.read_data_from_file()
ctb6_pyltp_tool.get_seg_sentences()
ctb6_pyltp_tool.get_pos_tags()
ctb6_pyltp_tool.get_deps()
ctb6_pyltp_tool.realease()

2.5 分词评测

	ctb6	msra	pku
pyltp	91.81	88.34	95.32

3. thulca——清华

3.1 简介

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：

能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

官网：http://thulac.thunlp.org/

GitHub地址：https://github.com/thunlp/THULAC-Python

3.2 模型原理

看官方介绍应该是基于概率语言模型的。

3.3 安装

sudo pip install thulac

3.4 使用

# encoding=utf-8
import thulac  

thu1 = thulac.thulac(seg_only=True)  #默认模式
thu1.cut_f("raw_ctb6_test.txt", "thulca_ctb6_seg_sentences.txt")
thu1.cut_f("raw_msra_test.txt", "thulca_msra_seg_sentences.txt")
thu1.cut_f("raw_pku_test.txt", "thulca_pku_seg_sentences.txt")

3.5 分词评测

	ctb6	msra	pku
thulca	88.94	85.56	92.28

4. NLPIR —— 中科院

4.1 简介

主要功能包括中文分词；英文分词；词性标注；命名实体识别；新词识别；关键词提取；支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

官网：http://ictclas.nlpir.org/

GitHub地址：https://github.com/NLPIR-team/NLPIR

4.2 模型原理

主要也是基于概率语言模型，详情可以见 \NLPIR-master\NLPIR\paper 这目录下的 paper

4.3 安装

GitHub 上面有给出 SVN 的安装方法，但一直都没下载成功，后来通过把那个项目克隆到码云，从码云下载压缩包才下载成功，所以这里直接把我下载好的压缩包上传到百度云了，直接贴贴出来：

链接：https://pan.baidu.com/s/1cpiTd_QAxTtYTNuy09dWxg
提取码：8r3x

下载解压即可。

4.4 使用

目前我只用了它的分词，打开目录：D:\NLPIR-master\NLPIR\NLPIR-Parser\bin-win64 下的 NLPIR-Parser.exe的可执行文件

4.5 分词评测

	ctb6	msra	pku
NLPIR	87.30	88.76	93.11

5. Zpar —— 新加坡科技大学

5.1 简介

这是一款新加坡科技大学开发的中文分词工具，C++编写，效率很高，并且支持自己训练模型

GitHub地址：https://github.com/frcchang/zpar

5.2 模型原理

对于该模型原理的资料比较少，只知道也是基于概率语言模型的。

5.3 安装

直接克隆 GitHub 的代码进行编译安装

git clone https://github.com/frcchang/zpar.git

之后依次执行：

make zpar.zh

make zpar

make postagger

make depparser

make conparser

make segmentor

make chinese.postagger

make chinese.depparser

make chinese.conparser

5.4 使用

源码里面没有模型，因此模型需要自己训练或者去下载

模型下载：https://github.com/frcchang/zpar/releases

因为模型文件有点大，所以一直没能下载下来，因此就用自己下的一些语料自己训练了一下。

5.4.1 训练

进入到路径：/zpar/dist/segmentor ，可以看到 segmentor 和 train 文件， train 是用来训练模型，segmentor 是用训练好的模型来进行分词的。

./train [train-file] [model-name] [number of iterations]	#训练的参数

#msr_training.utf8是训练的分词文件， msra_model是训练后的模型名字，4 表示迭代次数，& 表示放在后台进行训练
./train msr_training.utf8 msra_model 4 &

等执行结束后，我们就获得了一个模型文件：msra_model

之后再加载这个模型文件进行分词

5.4.2 使用训练的模型进行分词

./segmentor [model-name] [input-file] [output-file]	#分词的参数

#用刚才训练好的模型文件对 msr_test.utf8 里面的每句话进行分词，并输出到 msr_result.txt
./segmentor msra_model msr_test.utf8 msr_result.txt

5.5 分词评测

	ctb6	msra	pku
Zpar	95.48	96.56	93.57

**注：**由于下载不到官方提供的模型，因此分别用 ctb6 、 msra 和 pku 的训练集来训练三个模型，然后再分别用各自的测试集测试，才得出以上结果。

6. CoreNLP —— 斯坦福大学

6.1 简介

斯坦福大学这个工具可以支持多种语言的 NLP 任务，具体介绍看官网。

官网：https://stanfordnlp.github.io/CoreNLP/

6.2 模型原理

现在最新的模型大多采用神经网络了。

6.3——6.4 安装与使用

详情看简书的这篇文章，讲得很清楚了。

https://www.jianshu.com/p/77c29af0c574

在这里我就讲一个里面没有讲到的功能：如果要对分好的词进行词性标注怎么弄？

修改配置文件既可以：

在配置文件 StanfordCoreNLP-chinese.properties 注释掉 tokenize.language = zh ，写上 tokenize.language = Whitespace

# Pipeline options - lemma is no-op for Chinese but currently needed because coref demands it (bad old requirements system)
#annotators = tokenize, ssplit, pos, lemma, ner, parse, coref
annotators = tokenize, ssplit, pos, parse
#tokenize.language = zh
tokenize.language = Whitespace

6.5 分词评测

	ctb6	msra	pku
CoreNLP	96.75	83.99	89.71

7. Hanlp —— 开源库

7.1 简介

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。不仅仅是分词，而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP完全开源，包括词典。不依赖其他jar，底层采用了一系列高速的数据结构，如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等，这些基础件都是开源的。官方模型训练自2014人民日报语料库，您也可以使用内置的工具训练自己的模型。

通过工具类HanLP您可以一句话调用所有功能，文档详细，开箱即用。底层算法经过精心优化，极速分词模式下可达2,000万字/秒，内存仅需120MB。在IO方面，词典加载速度极快，只需500 ms即可快速启动。HanLP经过多次重构，欢迎二次开发。

官网：http://hanlp.linrunsoft.com/

GitHub主页：https://github.com/hankcs/HanLP

7.2 模型原理

最新的模型已经转用神经网络实现了，但同样是用 java 实现，效率没有斯坦福的 CoreNLP 高。

7.3 安装

下载工程代码压缩包：https://github.com/hankcs/HanLP/releases，下载后用 idea 打开（我是用IDEA打开的，不知道 eclipse 可不可以）
下载模型文件：https://github.com/hankcs/HanLP/releases ，根据里面提供的网盘地址下载最新模型文件
解压模型文件，把里面的文件拷到 \HanLP-master\data\model 路径下。

7.4 使用

可以直接使用 HanLP/src/test/java/com/hankcs/demo/ 里面的代码

/*
 * 
 * He Han
 * [email protected]
 * 2014/12/7 20:14
 *
 * 
 * Copyright (c) 2003-2014, 上海林原信息科技有限公司. All Right Reserved, http://www.linrunsoft.com/
 * This source is subject to the LinrunSpace License. Please contact 上海林原信息科技有限公司 to get more information.
 * 
 */
package com.hankcs.demo;

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLSentence;
import com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord;
import com.hankcs.hanlp.dependency.IDependencyParser;
import com.hankcs.hanlp.dependency.perceptron.parser.KBeamArcEagerDependencyParser;
import com.hankcs.hanlp.utility.TestUtility;

import java.io.IOException;

/**
 * 依存句法分析（神经网络句法模型需要-Xms1g -Xmx1g -Xmn512m）
 *
 * @author hankcs
 */
public class DemoDependencyParser extends TestUtility
{
    public static void main(String[] args) throws IOException, ClassNotFoundException
    {
        //CoNLLSentence sentence = HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。");
        //也可以用基于ArcEager转移系统的依存句法分析器
        IDependencyParser parser = new KBeamArcEagerDependencyParser();
        CoNLLSentence sentence = parser.parse("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。");
        System.out.println(sentence);
        // 可以方便地遍历它
        for (CoNLLWord word : sentence)
        {
            System.out.printf("%s --(%s)--> %s\n", word.LEMMA, word.DEPREL, word.HEAD.LEMMA);
        }
        // 也可以直接拿到数组，任意顺序或逆序遍历
        CoNLLWord[] wordArray = sentence.getWordArray();
        for (int i = wordArray.length - 1; i >= 0; i--)
        {
            CoNLLWord word = wordArray[i];
            System.out.printf("%s --(%s)--> %s\n", word.LEMMA, word.DEPREL, word.HEAD.LEMMA);
        }
        // 还可以直接遍历子树，从某棵子树的某个节点一路遍历到虚根
        CoNLLWord head = wordArray[12];
        while ((head = head.HEAD) != null)
        {
            if (head == CoNLLWord.ROOT) System.out.println(head.LEMMA);
            else System.out.printf("%s --(%s)--> ", head.LEMMA, head.DEPREL);
        }
    }
}

注：这里建议使用基于ArcEager转移系统的依存句法分析器，准确率更高！

7.5 分词评测

	ctb6	msra	pku
Hanlp	93.83	88.71	91.29

8. 对比总结

8.1 分词对比

	ctb6	msra	pku	平均
jieba	80.79	81.45	81.82	81.35
pyltp	91.81	88.34	95.32	91.82
thulca	88.94	85.56	92.28	88.93
NLPIR	87.30	88.76	93.11	89.72
CoreNLP	96.75	83.99	89.71	90.15
Hanlp	93.83	88.71	91.29	91.28

从结果可知：

在 CTB6 数据集上面，CoreNLP 表现是最好的；

在 msra 数据集上，NLPIR 变现是最好的；

在 pku 数据集上， pyltp 表现是最好的。

而 jieba 在三个数据集中的表现都是最差的。

整体表现 pyltp 和 Hanlp 表现相对较好，而 jieba 依旧是最差的。

综合准确率和分词速度，我认为 pyltp 是目前最优秀的分词工具了。

另外：

这次没有具体测速度，但是从目前比较直观的感受看，jieba 应该是最快的，其次是 pyltp 、thulca 和NLPIR，而CoreNLP 和 Hanlp 的速度比较慢，其中 Hanlp 的速度最慢。

8.2 各个工具的词性标注体系

	词性标注体系
pyltp	863词性标注集：http://www.ltp-cloud.com/intro
thulac	自己的标注集：http://thulac.thunlp.org/#词性解释
NLPIR	北大标准：https://blog.csdn.net/kevin_darkelf/article/details/39520881/
Zpar	好像是CTB，但是由于没有下载到官方模型，所以不得而知
CoreNLP	CTB 标注集
Hanlp	最新的模型也是 CTB 标注集

8.3 各个工具所支持的功能

	分词	词性标注	依存句法分析	命名实体识别	语义角色标注	语义依存分析	新词发现	关键词短语提取	自动摘要	文本分类聚类	拼音简繁	情感分析
Jieba	√
Pyltp	√	√	√	√	√	√
thulac	√	√
NLPIR	√	√	√	√			√	√	√	√		√
Zpar	√	√	√
CoreNLP	√	√	√	√
Hanlp	√	√	√	√			√	√	√	√	√

9. 附录

语料库下载：http://sighan.cs.uchicago.edu/bakeoff2005/

主要是MSRA和PKU的语料库

你可能感兴趣的:(NLP)

大模型中的分词技术 BBPE 禅与计算机技术深度学习大模型 NLP 深度学习 nlp 中文分词机器学习
一、OOV问题和多语言场景在自然语言处理（NLP）中，OOV（Out-of-Vocabulary）问题是指模型在处理文本时遇到未在词表中出现过的词汇，导致无法有效处理这些词汇的情况。这一问题在多语言场景中尤为突出，因为不同语言在词汇、语法结构和表达方式上存在显著差异，单一语言的词表难以全面覆盖多语言的复杂性。在多语言场景下的NLP任务中（如机器翻译、跨语言文本分类等），模型需要处理多种语言的混合文
【自然语言处理（NLP）】jieba分词的使用（分词模式、关键词提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍jieba分词的使用1.安装2.jieba分词模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的分词文件3.查看词频4.关键词提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言处理（NaturalLanguageProcessing，NLP）**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。
情感分析常见算法与模型及实现步骤计算机软件程序设计知识科普算法情感分析机器学习
【1】常见算法与模型情感分析（SentimentAnalysis）是一种自然语言处理（NLP）技术，用于识别和提取文本中的主观信息，如情绪、态度和意见。常见的算法和模型包括以下几种：传统机器学习方法朴素贝叶斯（NaiveBayes）基于贝叶斯定理，假设特征之间相互独立。计算简单，适用于大规模数据集。常用于文本分类任务。支持向量机（SVM）通过寻找最优超平面来划分不同的类别。在高维空间中表现良好，适
自然语言处理（NLP）-总览图学习汤姆和佩琦 NLP 自然语言处理学习人工智能
文章目录自然语言处理（NLP）-总览图学习1.一张总览图的学习1.语音学（Phonology）2.形态学（Morphology）3.句法学（Syntax）4.语义学（Semantics）5.推理（Reasoning）小结自然语言处理（NLP）-总览图学习转自《Python自然语言处理第二版》1.一张总览图的学习这张图片展示了一个自然语言处理的流程模型，涵盖了从语音分析到应用推理和执行的多个阶段，每
国内的AI大模型有可能超过ChatGPT吗？ AIWritePaper官方账号 Prompt ChatGPT AIWritePaper chatgpt 人工智能深度学习 AI写作 AIGC
这是一个非常有前瞻性和现实意义的问题。要回答国内AI是否有可能超过ChatGPT，我们需要从多个方面来分析，包括技术基础、数据资源、应用场景、政策支持以及人才储备等。以下是对这一问题的详细探讨：1.技术基础（1）现状国内AI技术：国内的AI技术发展迅速，尤其在深度学习、自然语言处理（NLP）和计算机视觉等领域已经取得了显著进展。例如，百度的文心一言、阿里的通义千问等大语言模型（LLM）已经在技术上
【Lora微调】提高模型效率的创新方法 @fishv 人工智能大模型微调 Lora
前言在自然语言处理（NLP）和机器学习的研究和应用中，随着模型规模的不断扩大，模型训练的计算成本和存储需求也不断攀升。大型预训练模型，如GPT、BERT等，虽然在许多任务上表现出色，但它们的训练和微调通常需要巨大的计算资源，这使得许多研究者和开发者无法充分利用这些模型进行个性化或领域特定的调整。为了在保持模型性能的同时减少计算开销，**Lora（Low-RankAdaptation）**应运而生。
从文字到思维：呆马GPT在人工智能领域的创新之旅呆码科技 gpt 人工智能
引言生成式预训练变换器（GenerativePre-trainedTransformer，简称GPT）领域是人工智能技术中的一大革新。自OpenAI推出第一代GPT以来，该技术经历了多代发展，不断提升模型的规模、复杂度和智能化程度。GPT模型通过在大规模数据集上进行预训练，学习语言的统计规律和世界知识，然后在特定任务上进行微调，以适应不同的应用需求。GPT领域的发展推动了自然语言处理（NLP）技术
BERT模型在情感分析中的应用：探寻文本情感的智能之路 Echo_Wish 前沿技术人工智能 bert 人工智能深度学习
随着互联网的普及和社交媒体的兴起，情感分析（SentimentAnalysis）已成为自然语言处理（NLP）领域的重要研究方向。情感分析通过对文本数据的分析，识别其中所表达的情感倾向（如正面、负面或中性）。近年来，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型凭借其强大的上下文理解能力，在情感分析中展现出了卓越的性能。本文将深
【自然语言处理（NLP）】NLTK的使用（分句、分词、词频提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍NLTK主要功能模块安装使用分句分词去除标点符号去除停用词stopword噪音单词,词频提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言，并且能够以有意义的方式
【自然语言处理（NLP）】序列数据研究（创建序列数据、简单的MLP模型、预测结果分析）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍序列数据研究导包安装d2l创建序列数据创建模型开始训练预测多步预测结论个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言，并且能够以有意义的方式回应和操作这些信息。N
网络安全大模型和人工智能场景及应用理解 hao_wujing web安全安全
本文通过通俗易懂的方式的进行阐述，大家读完觉得有帮助记得及时关注和点赞！！！一、网络安全大模型的概述网络安全大模型是一种用于识别和应对各种网络安全威胁的模型。它通过分析网络数据包、网络行为等信息，识别潜在的网络安全事件，并采取相应的措施进行防御。人工智能（AI）是指由计算机系统或机器执行的智能任务，通常需要人类智能来完成。AI的一个重要分支是（NLP），即让计算机理解和生成自然语言。NLP的一个核
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
使用 Tokenizers 分割文本：深入了解与实践 AWsggdrg python
在开发应用自然语言处理（NLP）模型时，一个常见的需求是将文本拆分为较小的块，通常称为“tokens”。现代语言模型对tokens的数量有限制，因此在处理长文本时，我们需要仔细计算tokens以避免超过限制。本文将介绍如何使用不同的tokenizer来分割文本，并提供实用代码示例。技术背景介绍自然语言处理中的tokenization是指将文本拆分为更小的、可管理的单元，称为tokens。使用tok
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
深入理解旋转位置编码（RoPE）及其在大型语言模型中的应用 tangjunjun-owen 语言模型-多模态大模型语言模型人工智能自然语言处理 RoPE 旋转位置编码
文章目录前言一、旋转位置编码原理1、RoPE概述2、复数域内的旋转1、位置编码生成2、应用位置编码二、RoPE的实现细节1、RotaryEmbedding类设计2、apply_rotary_pos_emb函数3、demo_apply_rotary_pos_emb函数三、完整RoPE代码Demo前言随着自然语言处理（NLP）领域的快速发展，预训练的语言模型如BERT、GPT系列、PaLM、Qwen等
[python][whl]pyltp的whl格式文件所有版本下载地址汇总 FL1623863129 Python python 开发语言
pyltp：Python中的中文自然语言处理工具在数字化时代，自然语言处理（NLP）成为了与机器进行交互的关键技术。对于中文，由于其独特的语言结构和复杂性，专门的工具和库显得尤为重要。pyltp正是这样一个为中文NLP任务设计的Python库，它封装了LTP（LanguageTechnologyPlatform）的核心功能，使得开发者能够轻松地在Python环境中进行中文文本的处理和分析。pylt
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
未登录词 Out-of-Vocabulary, OOV risc123456 nlp
未登录词oov未登录词（Out-of-Vocabulary,OOV）是指在训练数据中没有出现过的词汇，但在测试数据或实际应用中却出现了。未登录词是自然语言处理（NLP）任务中常见的挑战之一，因为它们可能导致模型无法正确处理或理解这些词汇，从而影响模型的性能。以下是一些关于未登录词的详细解释和处理方法：###未登录词的来源1.**罕见词**：在训练数据中出现次数非常少的词，可能在训练过程中被忽略或未
大语言模型原理与工程实践：预训练数据构建 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：预训练数据构建1.背景介绍大语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到情感分析，再到机器翻译，几乎无所不能。这些模型的成功很大程度上依赖于预训练数据的质量和规模。预训练数据的构建不仅影响模型的性能，还决定了模型的泛化能力和应用范围。在本文中
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
使用VolcEngine Maas Chat进行语言模型对话的入门指南 dagGAIYD 语言模型人工智能自然语言处理 python
技术背景介绍VolcEngineMaasChat模型提供了一种便捷的方式进行对话接口的设计与实现，特别是对于自然语言处理(NLP)应用。通过简单的API调用，开发者可以轻松集成强大的AI对话能力到他们的应用中。本文将指导您如何使用VolcEngineMaasChat进行对话交互。核心原理解析VolcEngineMaasChat利用大语言模型来处理和生成自然语言，在接收到用户的输入后，模型会通过分析
使用ModelScope实现高效句嵌入生成 dagGAIYD python
技术背景介绍在自然语言处理（NLP）任务中，向量化文本（嵌入）是许多下游任务（如语义搜索、文本分类、问答系统等）的核心步骤之一。通过将文本转换为密集向量表示，我们可以在高维向量空间中构建更加高效的表示和检索算法。ModelScope是阿里云开源的一个模型和数据集管理平台，提供了大量预训练模型，涵盖了各种领域和任务。ModelScopeEmbeddings是一个与LangChain社区集成的工具类，
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
多头潜在注意力（MLA）是怎么来的，什么原理，能用简单的示例解释么百态老人学习
多头潜在注意力（Multi-HeadLatentAttention，简称MLA）是一种改进的注意力机制，旨在提高自然语言处理（NLP）模型的推理效率和性能。其核心思想是通过低秩联合压缩键（Key）和值（Value），减少推理过程中所需的内存和计算资源，从而实现更高效的处理。MLA的原理在传统的多头注意力机制（MHA）中，每个输入token的键和值需要被缓存，这导致了巨大的内存开销。具体来说，对于每
从0到1打造企业AI知识库-课程目录 MaxCode-1 人工智能 AIGC 知识图谱 Langchain Xinference
课程名称：「从0到1打造企业AI知识库：实用指南与生产落地」课程目录第一章：AI企业知识库的前景与价值1.企业知识库的概念与意义1.1什么是企业知识库？-企业知识库的核心组成-企业知识库的类型1.2企业知识库如何赋能内部协作与创新。2.AI在知识库中的作用AI赋能的核心技术：NLP、知识图谱、大模型。AI知识库的未来趋势与行业案例。第二章：搭建企业知识库的整体规划3.从需求分析到方案设计识别业务场
深度学习Transformer框架 Clown爱电脑深度学习 transformer 人工智能自然语言处理机器学习
Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。Transformer的主要优势在于它可以并行地处理输入序列中的所有元素，并且不依赖于序列长度。它使用了self-attention机制，可以在序列中不同位置的元素之间建立联系。这使得Transformer在许多NLP任务中取得了最先进的性能。此外，Transfo
Transformer模型全面解析：工作原理、应用与未来展望* 泰山AI AI大模型应用开发 transformer
概述：深入探讨Transformer模型的工作原理，分析其在NLP领域的应用场景，并展望其未来发展趋势。本文为您提供关于Transformer模型的全面指南。正文Transformer模型全面解析：工作原理、应用与未来展望在人工智能的浪潮中，Transformer模型以其强大的性能和广泛的应用场景，成为了自然语言处理（NLP）领域的一颗璀璨明星。本文将对Transformer模型进行深入剖析，从工
一切皆是映射：Transformer架构全面解析 AI天才研究院计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
背景介绍自2017年，Transformer（自注意力机制）架构的问世以来，它已经成为自然语言处理（NLP）领域的主流技术之一。Transformer架构的出现，使得自然语言处理的任务变得更加简单、高效，同时也为许多其他领域提供了灵感。通过深入剖析Transformer，我们可以更好地理解其核心概念、原理和实际应用场景。这篇文章将全面解析Transformer架构，从核心概念到实际应用，帮助读者深
2.6 聚焦：Word Embedding 少林码僧 AI大模型应用实战专栏 word embedding
聚焦：WordEmbeddingWordEmbedding（词嵌入）是一种将词语转化为低维向量表示的技术，使得词语在数学空间中具有语义上的相似性。它是自然语言处理（NLP）中不可或缺的一部分，为文本数据提供了强大的表示能力。与传统的基于词频的词袋模型（Bag-of-Words）相比，WordEmbedding能够捕捉到词语之间更深层的语义和上下文信息。1.词嵌入的定义与作用WordEmbeddin
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S