byxdaz

中文分词技术

中文分词技术

一、为什么要进行中文分词？

词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分析是中文信息处理的基础与关键。

Lucene中对中文的处理是基于自动切分的单字切分，或者二元切分。除此之外，还有最大切分（包括向前、向后、以及前后相结合）、最少切分、全切分等等。

二、中文分词技术的分类

我们讨论的分词算法可分为三大类：基于字典、词库匹配的分词方法；基于词频度统计的分词方法和基于知识理解的分词方法。

第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词，如：最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富，词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词，由于这些信息是通过调查真实语料而取得的，因而基于统计的分词方法具有较好的实用性。

下面简要介绍几种常用方法:

1）．逐词遍历法。

逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低，大一点的系统一般都不使用。

2）．基于字典、词库匹配的分词方法（机械分词法）

这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。识别出一个词，根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况，分为最大（最长）匹配和最小（最短）匹配。根据与词性标注过程是否相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下：

（一）最大正向匹配法 (ＭａｘｉｍｕｍＭａｔｃｈｉｎｇＭｅｔｈｏｄ)通常简称为ＭＭ法。其基本思想为：假定分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理…… 如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

其算法描述如下：

(1)初始化当前位置计数器，置为0；

(2)从当前计数器开始，取前2i个字符作为匹配字段，直到文档结束；

(3)如果匹配字段长度不为0，则查找词典中与之等长的作匹配处理。

如果匹配成功，

则，

a)把这个匹配字段作为一个词切分出来，放入分词统计表中；

b)把当前位置计数器的值加上匹配字段的长度；

c)跳转到步骤2);

否则

a) 如果匹配字段的最后一个字符为汉字字符，

则

①把匹配字段的最后一个字去掉；

②匹配字段长度减2；

否则

①把匹配字段的最后一个字节去掉；

②匹配字段长度减1；

b)跳转至步骤3）；

否则

a)如果匹配字段的最后一个字符为汉字字符，

则当前位置计数器的值加2；

否则当前位置计数器的值加1；

b)跳转到步骤2)。

（二）逆向最大匹配法 (ＲｅｖｅｒｓｅＭａｘｉｍｕｍＭａｔｃｉｎｇＭｅｔｈｏｄ)通常简称为ＲＭＭ法。ＲＭＭ法的基本原理与ＭＭ法相同 ,不同的是分词切分的方向与MM法相反，而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符（i字字串）作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。相应地，它使用的分词词典是逆序词典，其中的每个词条都将按逆序方式存放。在实际处理时，先将文档进行倒排处理，生成逆序文档。然后，根据逆序词典，对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多，若从后向前匹配，可以适当提高精确度。所以，逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明 ,单纯使用正向最大匹配的错误率为 1/16 9,单纯使用逆向最大匹配的错误率为 1/245。例如切分字段“硕士研究生产”，正向最大匹配法的结果会是“硕士研究生 / 产”，而逆向最大匹配法利用逆向扫描，可得到正确的分词结果“硕士 / 研究 / 生产”。

当然，最大匹配算法是一种基于分词词典的机械分词法，不能根据文档上下文的语义特征来切分词语，对词典的依赖性较大，所以在实际使用时，难免会造成一些分词错误，为了提高系统分词的准确度，可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案（即双向匹配法，见（四）。）

（三）最少切分法：使每一句中切出的词数最小。

（四）双向匹配法：将正向最大匹配法与逆向最大匹配法组合。先根据标点对文档进行粗切分，把文档分解成若干个句子，然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小集处理。

3). 全切分和基于词的频度统计的分词方法

基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。

全切分

全切分要求获得输入序列的所有可接受的切分形式，而部分切分只取得一种或几种可接受的切分形式，由于部分切分忽略了可能的其他切分形式，所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略，都可能会遗漏正确的切分，造成分词错误或失败。而建立在全切分基础上的分词方法，由于全切分取得了所有可能的切分形式，因而从根本上避免了可能切分形式的遗漏，克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式，它的句子覆盖率和分词覆盖率均为100%，但全切分分词并没有在文本处理中广泛地采用，原因有以下几点：

1)全切分算法只是能获得正确分词的前提，因为全切分不具有歧义检测功能，最终分词结果的正确性和完全性依赖于独立的歧义处理方法，如果评测有误，也会造成错误的结果。

2)全切分的切分结果个数随句子长度的增长呈指数增长，一方面将导致庞大的无用数据充斥于存储数据库；另一方面当句长达到一定长度后，由于切分形式过多,造成分词效率严重下降。

基于词的频度统计的分词方法：

这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。

4)．基于知识理解的分词方法。

该方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界，它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力，需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。

5)．一种新的分词方法

并行分词方法：这种分词方法借助于一个含有分词词库的管道进行 ,比较匹配过程是分步进行的 ,每一步可以对进入管道中的词同时与词库中相应的词进行比较 ,由于同时有多个词进行比较匹配 ,因而分词速度可以大幅度提高。这种方法涉及到多级内码理论和管道的词典数据结构。（详细算法可以参考吴胜远的《并行分词方法的研究》。）

常用中文分词包

1. 庖丁解牛分词包，适用于与Lucene整合。http://www.oschina.net/p/paoding

庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。

Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。

高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。

采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义。

能够对未知的词汇进行合理解析

2. LingPipe，开源自然语言处理的Java开源工具包。http:/alias-i.com/lingpipe/

功能非常强大，最重要的是文档超级详细，每个模型甚至连参考论文都列出来了，不仅使用方便，也非常适合模型的学习。

主题分类（Top Classification）、命名实体识别（Named Entity Recognition）、词性标注（Part-of Speech Tagging）、句题检测（Sentence Detection）、查询拼写检查（Query Spell Checking）、兴趣短语检测（Interseting Phrase Detection）、聚类（Clustering）、字符语言建模（Character Language Modeling）、医学文献下载/解析/索引（MEDLINE Download, Parsing and Indexing）、数据库文本挖掘（Database Text Mining）、中文分词（Chinese Word Segmentation）、情感分析（Sentiment Analysis）、语言辨别（Language Identification）等

3. JE分词包

4. LibMMSeg http://www.oschina.net/p/libmmseg

采用C++开发，同时支持Linux平台和Windows平台，切分速度大约在300K/s（PM-1.2G），截至当前版本（0.7.1）。

LibMMSeg没有为速度仔细优化过，进一步的提升切分速度应仍有空间。

LibMMSeg 简介

LibMMSeg 是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包，其在GPL协议下发行的中文分词法，采用Chih-Hao Tsai的MMSEG算法。

MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm

Published: 1996-04-29
Updated: 1998-03-06
Document updated: 2000-03-12
License: Free for noncommercial use
Copyright 1996-2006 Chih-Hao Tsai (Email: hao520 at yahoo.com )

您可以在Chih-Hao Tsai's Technology Page找到算法的原文。

LibMMSeg 采用C++开发，同时支持Linux平台和Windows平台，切分速度大约在300K/s（PM-1.2G），截至当前版本（0.7.1）LibMMSeg没有为速度仔细优化过，进一步的提升切分速度应仍有空间。

下载

下载 MMSeg 0.7.3

修订记录

0.7.3
- 2008.05.27 修正 Makefile 无法安装csr_typedefs.h的问题
- 2008.05.27 修正 x64系统上编译无法作为动态库的一部分编译的问题

0.7.2
- 2008.05.19 修正指定的目录中无词典不提示错误的问题
- 2008.05.19 新增 Ruby 的调用API

0.7.1
- 2008.04.23 修正了在类似 “english 中文 english" 的句子，切分不正确的问题

0.7
- 第一次发行

安装

Window平台

打开源码包中src/win32 子目录下的对应的工程文件，目前LibMMSeg内置了VS2003和VS2005的工程文件。

Linux平台

在源码包根目录下执行：

./configure && make && make install

使用

词典的构造

mmseg -u unigram.txt

该命令执行后，将会产生一个名为unigram.txt.uni的文件，将该文件改名为uni.lib，完成词典的构造。需要注意的是，unigram.txt 必须为UTF-8编码。

词典文件格式：

....
河 187
x:187
造假者 1
x:1
台北队 1
x:1
湖边 1
......

其中，每条记录分两行。其中，第一行为词项，其格式为：[词条]/t[词频率]。需要注意的是，对于单个字后面跟这个字作单字成词的频率，这个频率需要在大量的预先切分好的语料库中进行统计，用户增加或删除词时，一般不需要修改这个数值；对于非单字词，词频率处必须为1。第二行为占位项，是由于 LibMMSeg库的代码是从Coreseek其他的分词算法库（N-gram模型）中改造而来的，在原来的应用中，第二行为该词在各种词性下的分布频率。LibMMSeg的用户只需要简单的在第二行处填"x:1"即可。

用户可以通过修改词典文件增加自己的自定义词，以提高分词法在某一具体领域的切分精度，系统默认的词典文件在data/unigram.txt中。

分词

mmseg -d tobe_segment.txt

其中，命令使用‘-d’开关指定词库文件所在的位置，参数dict_dir为词库文件（uni.lib ）所在的目录；tobe_segment.txt 为待切分的文本文件，必须为UTF-8编码。如果一切正确，mmseg会将切分结果以及所花费的时间显示到标准输出上。

对特殊短语的支持

由于LibMMSeg是为Sphinx全文搜索引擎设计的，因此其内置了部分搜索引擎切分算法的特性，主要表现在对特殊短语的支持上。

在搜索引擎中，需要处理C++时，如果分词器中没有词组C++，则将被切分为C/x +/x +/x，在进一步的检索中，可能每个词会由于出现的过于频繁而被过滤掉，导致搜索的结果与C++相关度不高不说，也严重影响的全文搜索的速度。在 LibMMSeg中，内置对特殊短语的支持。

其输入文件格式如下

// test commit
.net => dotnet
c# => csharp
c++ => cplusplus

其中左侧是待支持的特殊短语，右侧是左侧的特殊短语需要被转换为的短语。这一转换在分词前进行。

可以在行的开头加入'//'作为注释符号，发现符号'//'后，整行将被忽略。

特殊短语词库构造命令：

mmseg -b exceptions.txt

其中, 开关'-b'指示mmseg是要构造特殊短语词库；exceptions.txt是用户编辑的特殊短语转换规则。

该命令执行后，将在当前目录下产生一个名为"synonyms.dat"的文件，将该文件放在"uni.lib"同一目录下，分词系统将自动启动特殊短语转换功能。

注意：

1、在启用了该功能后，如果分词系统发现了一个特殊短语，将直接输出其在右侧对应的替换的值；

2、右侧被替换的值，请保证不会被分词器进行切分。（eg. C++ => C# 这个转换的意义不大，并且可能导致C++这个短语永远无法被检索到！）

附录：

MMSeg算法说明

首先来理解一下chunk，它是MMSeg分词算法中一个关键的概念。Chunk中包含依据上下文分出的一组词和相关的属性，包括长度 (Length)、平均长度(Average Length)、标准差的平方(Variance)和自由语素度(Degree Of Morphemic Freedom)。下面列出了这4个属性：

属性	含义
长度(Length)	chuck中各个词的长度之和
平均长度(Average Length)	长度(Length)/词数
标准差的平方(Variance)	同数学中的定义
自由语素度(Degree Of Morphemic Freedom)	各单字词词频的对数之和

Chunk中的4个属性只有在需要该属性的值时才进行计算，而且只计算一次。

其次来理解一下规则(Rule)，它是MMSeg分词算法中的又一个关键的概念。实际上我们可以将规则理解为一个过滤器(Filter)，过滤掉不符合要求的chunk。MMSeg分词算法中涉及了4个规则：

· 规则1：取最大匹配的chunk (Rule 1: Maximum matching)

· 规则2：取平均词长最大的chunk (Rule 2: Largest average word length)

· 规则3：取词长标准差最小的chunk (Rule 3: Smallest variance of word lengths)

· 规则4：取单字词自由语素度之和最大的chunk (Rule 4: Largest sum of degree of morphemic freedom of one-character words)

这4个规则符合汉语成词的基本习惯。

再来理解一下匹配方式复杂最大匹配(Complex maximum matching)：

复杂最大匹配先使用规则1来过滤chunks，如果过滤后的结果多于或等于2，则使用规则2继续过滤，否则终止过滤过程。如果使用规则2得到的过滤结果多于或等于2，则使用规则3继续过滤，否则终止过滤过程。如果使用规则3得到的过滤结果多于或等于2，则使用规则4继续过滤，否则终止过滤过程。如果使用规则 4得到的过滤结果多于或等于2，则抛出一个表示歧义的异常，否则终止过滤过程。

最后通过一个例句--“研究生命起源来简述”一下复杂最大匹配的分词过程。MMSeg分词算法会得到7个chunk，分别为：

编号	chunk	长度
0	研_究_生	3
1	研_究_生命	4
2	研究_生_命	4
3	研究_生命_起	5
4	研究_生命_起源	6
5	研究生_命_起	5
6	研究生_命_起源	6

使用规则1过滤后得到2个chunk，如下：

编号	chunk	长度
4	研究_生命_起源	6
6	研究生_命_起源	6

计算平均长度后为：

编号	chunk	长度	平均长度
4	研究_生命_起源	6	2
6	研究生_命_起源	6	2

使用规则2过滤后得到2个chunk，如下：

编号	chunk	长度	平均长度
4	研究_生命_起源	6	2
6	研究生_命_起源	6	2

计算标准差的平方后为：

编号	chunk	长度	平均长度	标准差的平方
4	研究_生命_起源	6	2	0
6	研究生_命_起源	6	2	4/9

使用规则3过滤后得到1个chunk，如下：

编号	chunk	长度	平均长度	标准差的平方
4	研究_生命_起源	6	2	0

匹配过程终止。最终取“研究”成词，以相同的方法继续处理“生命起源”。

分词效果:

研究_生命_起源_
研究生_教育_

coreseek 中文分词核心配置：

请参考：中文分词核心配置

mmseg.ini配置：（请将其放置到词典文件uni.lib所在的目录，并在文件结尾空两行）

[mmseg]

merge_number_and_ascii=0

number_and_ascii_joint=

compress_space=1

seperate_number_ascii=0

配置说明：【因为Sphinx-0.9.9发生变化，导致mmseg.ini的字母和数字切分规则无法正常应用，故暂停使用；下一版本将彻底解决该问题】

merge_number_and_ascii : ;合并英文和数字 abc123/x；如果0，则abc123切分为abc、123；如果1，则abc123为一个整体

number_and_ascii_joint : 定义可以连接英文和数字的字符；该字符将把英文和数字作为一个整体处理；如果设置为-，则abc-123将被切分为abc123

compress_space : 预留暂不支持

seperate_number_ascii : 将数字打散；如果0，则123为一个整体；如果1，则123切分为1、2、3

使用中如果出现问题，可以查看常见问题解答。

http://www.coreseek.com/opensource/mmseg/

5. IKAnalyzer http://www.oschina.net/p/ikanalyzer

IKAnalyzer基于lucene2.0版本API开发，实现了以词典分词为基础的正反向全切分算法，是LuceneAnalyzer接口的实现。

该算法适合与互联网用户的搜索习惯和企业知识库检索，用户可以用句子中涵盖的中文词汇搜索，如用"人民"搜索含"人民币"的文章，这是大部分用户的搜索思维；

不适合用于知识挖掘和网络爬虫技术，全切分法容易造成知识歧义，因为在语义学上"人民"和"人民币"是完全搭不上关系的。

6. PHPCWS http://www.oschina.net/p/phpcws

PHPCWS 是一款开源的PHP中文分词扩展，目前仅支持Linux/Unix系统。

PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理，再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理，并增加标点符号过滤功能，得出分词结果。

ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）是中国科学院计算技术研究所在多年研究工作积累的基础上，基于多层隐马模型研制出的汉语词法分析系统，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS经过五年精心打造，内核升级6次，目前已经升级到了ICTCLAS3.0，分词精度 98.45%，各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名，是当前世界上最好的汉语词法分析器。

ICTCLAS 3.0 商业版是收费的，而免费提供的 ICTCLAS 3.0 共享版不开源，词库是根据人民日报一个月的语料得出的，很多词语不存在。所以本人对ICTCLAS分词后的结果，再采用逆向最大匹配算法，根据自己补充的一个9万条词语的自定义词库（与ICTCLAS词库中的词语不重复），对ICTCLAS分词结果进行合并处理，输出最终分词结果。

由于 ICTCLAS 3.0 共享版只支持GBK编码，因此，如果是UTF-8编码的字符串，可以先用PHP的iconv函数转换成GBK编码，再用phpcws_split函数进行分词处理，最后转换回UTF-8编码。

7、KTDictSeg 一个C#.net做的简单快速准确的开源中文分词组件(这个分词算法效果也不错)
http://www.cnblogs.com/eaglet/archive/2007/05/24/758833.html

代码下载：http://download.csdn.net/source/521857

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/allenshi_szl/archive/2009/11/24/4864698.aspx

你可能感兴趣的:(技术资料)

年薪90W的ai产品经理，确实香！大耳朵爱学习人工智能产品经理大语言模型 AI产品经理 AI大模型 AI产品经理入门转行
答案是肯定的哈，ai产品经理一定要懂技术！传统互联网产品经理对接的是研发工程师，那就需要懂研发技术，同样的，ai产品经理对接的是算法工程师，所以要懂算法技术。⚠️但是，我们并不需要像算法技术人才那样精通，只要和算法工程师能同频沟通，知道该如何去管控ai项目进度，协调项目资源就可完全OK。️我整理了一些ai产品经理需要学习的技术资料，供大家学习交流！AI产品经理，0基础小白入门指南作为一个零基础小白
通天星CMSV6车载定位监控平台 getAlarmAppealByGuid SQL注入漏洞漏洞文库-网络安全 day漏洞挖掘漏洞复现 sql 数据库安全网络网络安全 web安全安全架构
0x01阅读须知技术文章仅供参考，此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他！！！0x02产品概述通天星CMSV6车载定位监控平台拥有以位置服务、无线3G/4G视频传输、云存
VBA技术资料MF184：图片导入Word添加说明文字设置格式许士生 word
我给VBA的定义：VBA是个人小型自动化处理的有效工具。利用好了，可以大大提高自己的工作效率，而且可以提高数据的准确度。“VBA语言攻”提供的教程一共九套，分为初级、中级、高级三大部分，教程是对VBA的系统讲解，从简单的入门、到入门后的提高、到数据库、到字典、到WordVBA的应用、到高级网抓及类的应用、一直讲到程序的分发。另外，为了方便大家在写代码是方便查找，“VBA语言攻”又推出了一部VBA汉
[ai笔记8] 聊聊openAI最新文生视频产品-Sora 文思源想文思AI笔记人工智能 sora 文思ai笔记 openai AIGC
欢迎来到文思源想的ai空间，这是技术老兵重学ai以及成长思考的第8篇分享！近期sora在科技届引发不小的轰动，虽然这是openai并未对外发布的相关产品，目前如同小米汽车的技术发布会，但是确实引发了不小的震撼，因此特地到官方网站阅读了它的所有介绍，包括技术资料，这里简单记录下,并聊聊我个人的看法。1Sora简介Sora是由OpenAl在2024年2月16日推出的文本生成视频模型。Sora继承DAL
2018-11-24晨间日记萱萱230
11月22日起床：6点半就寝：12点半天气：晴转阴心情：糟糕透了，经期头痛，上午在办公室整理技术资料，痛到要吐，终于，下班路上，抱着棵大树，吐出来不快，吐出了压抑，感觉舒服了些纪念日：生病时身心俱疲，脆弱，无力，所以对照顾你的人也就多了份依赖～任务清单昨日完成的任务，最重要的三件事：改进：习惯养成：周目标·完成进度学习·信息·阅读健康·饮食·锻炼人际·家人·朋友工作·思考最美好的三件事1.2.3.
CUDA优化：最大化内存吞吐量（官方文档翻译） EthanLifeGreat 并行计算 cuda
毕业设计要翻译技术资料3000字，这里找了英伟达CUDATOOLKITDOCUMENTATION的5.3节“最大化内存吞吐量来”翻译一下，供参考，并希望此文对诸位的CUDA程序优化有所帮助。5.3.最大化内存吞吐量最大化应用程序总内存吞吐量的第一步当是最大限度地减少低带宽的数据传输。这意味着最小化主机（内存）和设备（显存）之间的数据传输，因为正如主机和设备间的数据传输中详述的那样——这样的数据传输
为什么放弃学习C语言编程凌云C语言游戏开发
为什么许多编程人员最后都放弃了呢？小编帮你理清下原因，主要有以下几个小编推荐一个学C语言/C++的学习裙【六六六，二九五，四九八】邀请码凌云，无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享！为什么这么多人选择放弃学习编程？加班加点是家常便饭在软件行业不加班的公司不是很多，区别就是加班强度。为什么程序员需要加这么多班，软件是一个精细程度极
VBA_MF系列技术资料1-242 VBA6337 开发语言
MF系列VBA技术资料为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧，我参考大量的资料，并结合自己的经验总结了这份MF系列VBA技术综合资料，而且开放源码（MF04除外），其中MF01-04属于定向赠送，其余资料需要您获得三套教程后联系获得。每位学员可获得的数量与您拥有教程数相关，但如果您获得了我的全部九套教程+手册+NZ,YZ工具(即：T3资格学员)，这个系列资料您可以全
VBA_MF系列技术资料1-315 VBA6337 OFFICE VBA 边缘计算
MF系列VBA技术资料为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧，我参考大量的资料，并结合自己的经验总结了这份MF系列VBA技术综合资料，而且开放源码（MF04除外），其中MF01-04属于定向赠送，其余资料需要您获得三套教程后联系获得。每位学员可获得的数量与您拥有教程数相关，但如果您获得了我的全部九套教程+手册+NZ,YZ工具(即：T3资格学员)，这个系列资料您可以全
VBA_MF系列技术资料1-325 VBA6337 VBA OFFICE 开发语言
MF系列VBA技术资料为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧，我参考大量的资料，并结合自己的经验总结了这份MF系列VBA技术综合资料，而且开放源码（MF04除外），其中MF01-04属于定向赠送，其余资料需要您获得三套教程后联系获得。每位学员可获得的数量与您拥有教程数相关，但如果您获得了我的全部九套教程+手册+NZ,YZ工具(即：T3资格学员)，这个系列资料您可以全
VBA_MF系列技术资料1-237 VBA6337 开发语言
MF系列VBA技术资料为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧，我参考大量的资料，并结合自己的经验总结了这份MF系列VBA技术综合资料，而且开放源码（MF04除外），其中MF01-04属于定向赠送，其余资料需要您获得三套教程后联系获得。每位学员可获得的数量与您拥有教程数相关，但如果您获得了我的全部九套教程+手册+NZ,YZ工具(即：T3资格学员)，这个系列资料您可以全
VBA技术资料MF117：测试显示器大小 VBA6337 VBA OFFICE 阿里云
我给VBA的定义：VBA是个人小型自动化处理的有效工具。利用好了，可以大大提高自己的工作效率，而且可以提高数据的准确度。我的教程一共九套，分为初级、中级、高级三大部分。是对VBA的系统讲解，从简单的入门，到数据库，到字典，到高级的网抓及类的应用。另外，为了方便大家学习和应用，我又推出了一部VBA汉英手册，这部手册覆盖了VBA的方方面面，与实际工作衔接度高。为了更好的完善学员的知识结构，及丰富学员的
《富有的习惯》3 -- 每天花时间提升自我价值安之鱼之乐嘛
成功人士每天都在不断提升自我价值。他们阅读与自身行业相关的杂志和技术资料，抱着学习的心态孜孜不倦地汲取知识，保持与时俱进。他们不会把时间花在看电视或者刷网页上。成功人士阅读自我提升类书籍，始终保持学习的热情。他们每天都会花时间学习，只为了让自己变得更优秀，在工作中表现更加出色，完成自我价值的提升。他们知道时间宝贵，不能浪费在没有意义的事情上，所以他们总是围绕着自己的目标进行自我完善。他们设定更加明
専攻春节钜惠 VBA6337 开发语言
専攻春节钜惠大家好，新春佳节到来之际，为了答谢大家多年来的支持厚爱，也为了更广泛的推广VBA应用，“VBA语言専攻”在春节期间再次推出钜惠活动，时间2月9日到2月17日（大年三十到正月初八）1：加推MF系列技术资料55份，MF系列技术资料总计到380份。优惠活动范围仅限于这380份技术资料。2：T3学员可以免费得到上述380份资料，在活动期间可以随时微信联络我，我会提供您下载地址，同时提供Word
VBA技术资料MF116：测试操作系统是否为64位 VBA6337 VBA OFFICE 开发语言
我给VBA的定义：VBA是个人小型自动化处理的有效工具。利用好了，可以大大提高自己的工作效率，而且可以提高数据的准确度。我的教程一共九套，分为初级、中级、高级三大部分。是对VBA的系统讲解，从简单的入门，到数据库，到字典，到高级的网抓及类的应用。另外，为了方便大家学习和应用，我又推出了一部VBA汉英手册，这部手册覆盖了VBA的方方面面，与实际工作衔接度高。为了更好的完善学员的知识结构，及丰富学员的
双十一期间VBA钜惠 VBA6337 VBA OFFICE 开发语言
大家好，本年度双11即将到来，为了答谢大家多年来的支持及更广泛的推广VBA的应用，“VBA语言専功”在此期间推出巨大优惠：此期间打包购买VBA技术资料实行半价优惠。1：面向对象：学员及非学员2：打包购买目前推出的所有VBA技术资料，共212份3：学员执行学员价格的半价；非学员执行非学员的价格的半价，非常希望大家成为我的学员，以学员价格购买。4：已经取得过部分赠送资料的学员，如需购买其余资料，一并按
専攻春节钜惠 VBA6337 VBA OFFICE 开发语言
専攻春节钜惠大家好，新春佳节到来之际，为了答谢大家多年来的支持厚爱，也为了更广泛的推广VBA应用，“VBA语言専攻”在春节期间再次推出钜惠活动，时间2月9日到2月17日（大年三十到正月初八）1：加推MF系列技术资料55份，MF系列技术资料总计到380份。优惠活动范围仅限于这380份技术资料。2：T3学员可以免费得到上述380份资料，在活动期间可以随时微信联络我，我会提供您下载地址，同时提供Word
网络分析仪的防护技巧一只豌豆象测试与仿真硬件工程经验分享网络分析仪
VNA的一些使用防护技巧，虽不全面，但非常实用：[1]一定要使用正规接地的三相交流电源线缆进行供电，地线不可悬浮，并且，火线和零线不可反接；[2]交流供电必须稳定，如220V供电，误差应保障在±10%以内；[3]保证实验环境中，典型的接地电阻值<1Ω，零线和地线之间的电压<1V；[4]必要时可配置不间断电源（UPS）；[5]不允许使用超过技术资料或仪器警告标签所指示的值（如损坏电平的上限要求）；[
常用技术网站，maven，git，ideal，java，mysql，Oracle，vue等一只努力的程序猿 java maven git
常用技术网站前言pom依赖引用网址（maven）代码管理工具（码云）ideal插件下载地址流程图设计工具前言本文主要用来记录开发过程中可能会用到的技术资料网站，方便各位码友进行资料查询和资料获取。pom依赖引用网址（maven）pom依赖引用网址代码管理工具（码云）码云，代码管理工具ideal插件下载地址ideal插件下载流程图设计工具流程图设计未完成。待续。。。。
设计变更、工程签证、工程量确认单、会签、工程联系单 Wendy_170f
一、设计变更（一）设计变更的含义设计变更是工程施工过程中保证设计和施工质量，完善工程设计。设计变更是指设计单位对原施工图纸和设计文件中所表达的设计标准状态的改变和修改。由此可见，设计变更仅包含由于设计工作本身的漏项、错误等原因而修改、补充原设计的技术资料。设计变更费用一般应控制在建安工程总造价的5%以内，由设计变更产生的新增投资不得超过基本预备费的1/3。纠正设计错误以及满足现场条件变化而进行的设
Java面试通关要点汇总集及参考答案（不吹不黑耿直福利）宇哥聊AI
以下是本人从某个视频中归纳出来的答案，感觉牛掰就总结了出来，你们可以到直播间去问管理要高清思维导图和一些实用的技术资料，他们会免费的发给你们，按照他们的说法是建立一个分享、交流、学习的平台，感觉他们太耿直了。反模式设计简单的来说，反模式是指在对经常面对的问题经常使用的低效，不良，或者有待优化的设计模式/方法。甚至，反模式也可以是一种错误的开发思想/理念。在这里我举一个最简单的例子：在面向对象设计/
您有一份OpenHarmony开发者论坛2023年度总结，请查收~ OpenHarmony开发者 OpenHarmony
2023年11月，OpenHarmony开发者论坛1.0版本正式上线。感谢各位开发者对OpenHarmony的大力支持和热爱，成为OpenHarmony开发者论坛的第一批体验用户，并迅速在论坛开启了OpenHarmony技术交流。通过开发者们在论坛进行提问、答疑、分享技术文章、技术资料等方式为论坛沉淀了丰富的OpenHarmony技术知识。对此，OpenHarmony开发者论坛也整理不同的榜单，让
某赛通电子文档安全管理系统-多个接口存在-注入漏洞复现-1day未公开漏洞网络安全库漏洞复现 day漏洞挖掘网络安全
0x01阅读须知技术文章仅供参考，此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他！！！0x02漏洞概述某赛通电子文档安全管理系统（简称：CDG）是一款电子文档安全加密软件，该系统
这些世界级别的黑客一定是很厉害的程序员吗？哪有岁月静好
小编推荐一个学C语言/C++的学习裙【583650410】，无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享！黑客是中文词语，源自英文hacker.一般定义为精通计算机各类技术的计算机高手。要成为真正的黑客，本身必然是出色的程序员，黑客技术是变成中的某一类别。没有真正的黑客技术，只是利用了一些BUG，下面来看看顶级黑客是否是一名出色的程序
java id生成器分布式_不能错过的分布式ID生成器（Leaf ），好用的一批！陌陌的日记 java id生成器分布式
本文收录在个人博客：www.chengxy-nds.top，技术资料共享，同进步不了解分布式ID的同学，先行去看《一口气说出9种分布式ID生成方式，面试官有点懵了》温习一下基础知识，这里就不再赘述了美团(Leaf)Leaf是美团推出的一个分布式ID生成服务，名字取自德国哲学家、数学家莱布尼茨的一句话：“Therearenotwoidenticalleavesintheworld.”(“世界上没有两
VBA技术资料MF110：按照单元格内容拆分工作表 VBA6337 VBA OFFICE 开发语言
我给VBA的定义：VBA是个人小型自动化处理的有效工具。利用好了，可以大大提高自己的工作效率，而且可以提高数据的准确度。我的教程一共九套，分为初级、中级、高级三大部分。是对VBA的系统讲解，从简单的入门，到数据库，到字典，到高级的网抓及类的应用。另外，为了方便大家学习和应用，我又推出了一部VBA汉英手册，这部手册覆盖了VBA的方方面面，与实际工作衔接度高。为了更好的完善学员的知识结构，及丰富学员的
VBA_MF系列技术资料1-320 VBA6337 VBA OFFICE 开发语言
MF系列VBA技术资料为了让广大学员在VBA编程中有切实可行的思路及有效的提高自己的编程技巧，我参考大量的资料，并结合自己的经验总结了这份MF系列VBA技术综合资料，而且开放源码（MF04除外），其中MF01-04属于定向赠送，其余资料需要您获得三套教程后联系获得。每位学员可获得的数量与您拥有教程数相关，但如果您获得了我的全部九套教程+手册+NZ,YZ工具(即：T3资格学员)，这个系列资料您可以全
【学习】移空技术资料快乐神仙鼠
朋友推荐了移空技术。在网上找到一些资料，转录在此。东西方的治疗技术有异曲同工之妙，如果说移空技术是“移”问题，那么安全岛技术就是“移”人，山不过来，我就过去。遇到当事人的问题繁琐杂多时，不妨先把问题搁置，让当事人进入自己感到绝对舒适和愜意的内在安全岛，也能够让当事人重新获得力量和掌控感。《金刚经》里说：“过去心不可得，现在心不可得，未来心不可得。”来访者的意识就像流水，并不会停顿，心理咨询师应该是
2021-7-29晨间日记明心见性a
今天是什么日子起床：6:00就寝：22:00天气：阴心情：一般般纪念日：好像没啥重要的纪念日任务清单昨日完成的任务，最重要的三件事：改进：学习技能习惯养成：坚持运动周目标·完成进度初步完成学习·信息·阅读技术资料，时事新闻，文学创作健康·饮食·锻炼多吃水果蔬菜，健康饮食，每周坚持运动人际·家人·朋友一般般工作·思考提高自身技能最美好的三件事暂时没遇到。思考·创意·未来奋斗的意义
【漏洞复现】（1day）Bladex快速开发平台sql注入漏洞煮豆燃豆萁网络安全 python web安全
0x01阅读须知SCA御盾实验室的技术文章仅供参考，此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他！！！0x02漏洞描述（一）Bladex快速开发平台BladeX是一款精心设计的
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D