虚怀若谷韬光隐晦

中文分词

分词，是自然语言处理的第一步！

中文分词技术的类型并没有比较严谨的学术定义，仅从方式方法上，大致归纳为下表的四类：

中文分词技术
规则分词	正向最大匹配法	逆向最大匹配法			双向最大匹配法
统计分词	语言模型		深度学习
混合分词	SVM模型	隐马尔科夫模型		条件随机场
理解分词	知识图谱

规则分词

自定义词典，记作dict，记录dict中最长一词的字符数个数，记作m。如dict中最长一词是“乌兹别克斯坦”，即m=6。

预切分的文字，记作text，在text中取m个字符与dict中的词进行逐一匹配：

如果匹配成功，则切分出来，再切分余下未切分的文字，直到全部切完；

如果没有匹配到，则m=m-1再与dict的词进行匹配，如果还是没有匹配到，则再m=m-1，直到有字/词被切分出来，或者m=0。

正向最大匹配（Maximum Match Method，MM法）

从左至右，依次取m个字符。

假设有dict，文件名为data.uft8，内容如下：

南京市
南京市长
长江大桥
人民解放军
大桥

则m=5

以text='南京市长江大桥' 为例

m	搜索	dict匹配
m=5	南京市长江	X
m=4	南京市长	O
m=5 因余字符数<5 取余字符数，3 m=3	江大桥	X
m=2	江大	X
m=1	江	O
m=5 因余字符数<5 取余字符数，2 m=2	大桥	O
m=5 因余字符数<5 取余字符数，0 m=0

将每个切分出来的字/词按照由上至下的顺序摘选出来，即“南京市长/江/大桥”。

逆向最大匹配（Reverse Maximum Match Method，RMM法）

从右至左，依次取m个字符。

假设dict和text同上，代码如下：

# coding=utf-8

class RMM(object):
    def __init__(self, dic_path):
        self.dictionary = set()
        self.maximum = 0
        with open(dic_path, 'r', encoding = 'utf-8') as f:
            for line in f:
                line = line.strip()
                if not line:
                    continue
                self.dictionary.add(line)
                if len(line) > self.maximum:
                    self.maximum = len(line)
    def cut(self, text):
        result = []
        index = len(text)
        while index > 0:
            for size in range(self.maximum, 0, -1):
                piece = text[(index - size):index]
                if piece in self.dictionary:
                    result.append(piece)
                    index -= size
                    break
            if piece is None:
                index -= 1
        return result[::1]
def main():
    text = '南京市长江大桥'
    tokenizer = RMM('./data.utf8')
    print(tokenizer.cut(text))
main()

双向最大匹配（Bi-direction Matching Method）

比较MM法和RMM法的结果，取切分最少的作为结果。

如MM法的“南京市长/江/大桥”和RMM法的“南京市/长江大桥”，则取RMM法。

根据SunM.S.和Benjamin K.T.（1995）的研究表明：

中文分词
MM和RMM的结果是一致的	90%
MM或RMM的结果不一致，但必有一种是正确的	9%
MM和RMM的结果是一致的，但是都是错误的 MM或RMM的结果不一致，但二者都不对	<1%

统计分词

语言模型

长度为m的字符串，确定其概率分布 $P(\omega_1,\omega_2,...,\omega_m)$ ，每个 $\omega_1$ 到 $\omega_m$ 表示文本中的各个词语。

$P(\omega_1,\omega_2,...,\omega_m)=P(\omega_1)P(\omega_2\mid\omega_1)P(\omega_3\mid\omega_1,\omega_2)...P(\omega_m,\omega_1,\omega_2,...,\omega_{m-1})$

以“You are my sunshine”为例：

$P(\omega_{you})P(\omega_{are}\mid\omega_{you})P(\omega_{my}\mid\omega_{you},\omega_{are})P(\omega_{sunshine}\mid\omega_{you},\omega_{are},\omega_{my})$

每增加一个字/词，计算量都翻一倍。

优化方案：n元模型（n-gram model），其中

n=1 为一元模型（unigram model） $\because P(\omega_1,\omega_2,...,\omega_m)=P(\omega_1)P(\omega_2)...P(\omega_m)$ $\therefore P(\omega_{you})P(\omega_{are})P(\omega_{my})P(\omega_{sunshine})$
n=2 为二元模型（bigram model） $\because P(\omega_1\mid\omega_1,\omega_2,...,\omega_{i-1})\approx P(\omega_i\mid\omega_{i-1})$ $\therefore P(\omega_{you}\mid\omega_{are})P(\omega_{are}\mid\omega_{my})P(\omega_{my}\mid\omega_{sunshine})$
n=3 为三元模型（trigram model） $\because P(\omega_i\mid\omega_1,\omega_2,...,\omega_{i-2})\approx P(\omega_i\mid\omega_{i-2},\omega_{i-1})$ $\therefore P(\omega_{you}\mid\omega_{are},\omega_{my})P(\omega_{are}\mid\omega_{my},\omega_{sunshine})$

当 n 越大，模型包含的词序信息越丰富，同时计算量也随之增大。

$P(\omega_i\mid\omega_{i-(n-1)},...,\omega_{i-1})=\frac{count(\omega_{i-(n-1)},...,\omega_{i-1},\omega_i)}{count(\omega_{i-(n-1)},...,\omega_{i-1})}$

长度越长的文本序列出现的概率会越少，为避免分子/分母为零的情况出现，通常预先使用平滑算法做特征工程。如：

高斯（Gauss）平滑
拉普拉斯（Laplace）平滑

深度学习（deep learning）

用CNN、LSTM等深度学习网络自动发现一些模式和特征，然后结合CRF、softmax等分类算法进行分词预测。

优势：解放了维护词典的人力成本。
劣势：其效果依赖训练语料的质量，计算量对于规则分词要大很多。

混合分词

混合分词 = 规则分词 + 统计分词

SVM模型

1. 预处理模块

将文字分割成词串（以两字词串为例），如：

'我爱北京天安门，天安门上太阳升' = '我爱' , '爱北' , '北京' , '京天' , '天安' , '安门'，'天安' , '安门' , '门上' , '上太' , '太阳' , '阳升'

2. 词频统计模块

统计每个字和词语相应出现的频率：

我 1
爱 1
北 1
京 1
天 2
安 2
门 2
上 1
太 1
阳 1
升 1
我爱 1
爱北 1
北京 1
京天 1
天安 2
安门 2
门上 1
上太 1
太阳 1
阳升 1

3. SVM处理模块

主要解决歧义型字段问题，歧义型字段包括两类：

交叉型歧义：可以切在A处，也可以切在B处。如“乒乓球 / 拍卖完了”、“乒乓球拍 / 卖完了”
组合型歧义：可以切开，也可以不切开。如“他具有非凡的 / 才能，只有他 / 才 / 能 / 做到”

将上述两类歧义问题转化为“在字段XYZ中，XY可以构成词语，YZ也可以构成词语，如何正确地分割”问题。

对于歧义字段XYZ:a1...axb1...byc1...cz(x>0,y>0,z>0)存在两种切分方案：

$Schemes1:\frac{a_1...a_x}{w_{11}}\frac{b_1...b_y}{w_{12}}\uparrow_{pt1}\frac{c_1...c_z}{w_{13}}$ 正向切分

$Schemes2:\frac{a_1...a_x}{w_{11}}\uparrow_{pt2}\frac{b_1...b_y}{w_{21}}\frac{c_1...c_z}{w_{22}}$ 逆向切分

其中，w11,w12,w13,w21,w22均为词，pt1和pt2分别对应byc1和axb1之间的位置。

将每个歧义字段表示成一个二维向量.

Ipt1表示正向切分断点处byc1两个字的互信息值。
Ipt2表示逆向切分断点处axb1两个字的互信息值。

互信息（Mutual Information）：体现信息A与信息B之间的紧密程度，AB必须是邻近的汉字字符串。

$I(A,B)=log_2\frac{P(A,B)}{P(A)P(B)}$ ，其中 $P(A,B)=\frac{n(AB)}{n}$ ， $P(A)=\frac{n(A)}{n}$ ， $P(B)=\frac{n(B)}{n}$ ， n = 词频总和。

如果 $I(A,B)\geq 0$ ，即 $P(AB)\geq P(A)P(B)$ ，表示AB间是正相关，当I(A,B)大于给定的阈值，则可以认为AB是一个词。
如果 $I(A,B)\approx 0$ ，即 $P(AB)\approx P(A)P(B)$ ，表示AB间是不相关的。
如果，即，表示AB间是互斥的，则可以认为AB基本不会是一个词。

* SVM-KNN分类器：等价于每个类只选择一个代表点的1NN分类器。

最终取字，从 [i] 到 [i+1] ，存入词典：

$I(sIndex[i].s,sIndex[i+1].s)=log_2\frac{P(sIndex[i].nword2)*m}{P(sIndex[i].nword)P(sIndex[i+1].nword)}$

4. 词典生成模块

将切分后的词语存储到自定义词典中，通过词典的进行分词。

隐马尔科夫模型

隐马尔科夫模型（HMM，Hidden Markov Model）：

一阶马尔科夫 —— 现状态仅依赖于前一个状态，即“齐次马尔科夫假设”，是HMM中较常使用的假设
N阶马尔科夫 —— 现状态依赖于前N个状态

每个字在构造成词语时都在该词语中占据着一个确定的位置，即“词位”。

缩写	全称	含义	案例
B	Beginning	词首	1. 看S 2. 幻B 视E 3. 钢B 铁M 侠E 4. 美B 国M 队M 长E 5. 鹰B 眼E
M	Middle	词中
E	Ending	词尾
S	Single	单独成词

根据贝叶斯公式，得 $P(o\mid \lambda)=\frac{P(\lambda \mid o)P(o)}{P(\lambda)}$

o 表示“词位”，即 B,M,E,S 【HMM 的隐含状态】
$\lambda$ 表示“字符串”，即钢铁侠,美国队长等【HMM 的可观察状态】

HMM有三种概率：

初始状态概率（initial state probabilities）：初始时每一项隐含状态的概率
发射概率（emission probabilities）：P( λ | o )
转移概率（transition probabilities）：P( o )

$\because P(\lambda)$ 为常数项，暂且忽略。

$\therefore$ 只对贝叶斯公式的分子 $P(\lambda \mid o)P(o)$ 作马尔科夫假设，其中 $P(\lambda \mid o)$ 称为“发射概率 / 似然值”，称为“转移概率 / 先验概率”。

$P(\lambda \mid o)=P(\lambda_1 \mid o_1)P(\lambda_2 \mid o_2)...P(\lambda_n \mid o_n)$

$P(o)=P(o_1)P(o_2 \mid o_1)P(o_3 \mid o_1,o_2)...P(o_n \mid o_1,o_2,...,o_{n-1})$ 这里作“齐次马尔科夫假设”（每个输出只与上一输出有关），得到

$P(o)=P(o_1)P(o_2 \mid o_1)P(o_3 \mid o_2)...P(o_n \mid o_{n-1})$

$\therefore$ $P(\lambda | o)P(o)$ 等价于 $P(\lambda_1 | o_1)P(o_1)P(\lambda_2 | o_2)P(o_2 | o_1)P(\lambda_3 | o_3)P(o_3 | o_2)...P(\lambda_n | o_n)P(o_n | o_{n-1})$

用 Veterbi(维特比) 算法求解发射概率的最大概率与转移概率的积，即 $maxP(\lambda \mid o)P(o)$

如果最优路径经过了点 ,那么从初始点到点 $o_{i-1}$ 的路径必然是最优路径,因为使用的是“齐次马尔科夫假设(即一阶马尔科夫模型)” —— 点只影响前后两点： $P(o_{i-1}|o_i)$ 和 $P(o_i|o_{i+1})$

代码如下（需先下载 trainCorpus.txt_utf8【已经分好词的训练集词典】和 hmm_model.pkl【训练集词典中计算好的概率模型】）：

链接: https://pan.baidu.com/s/1g7DzRKElpo8w5fJXHh8Kmg
提取码: cymu

# coding=utf-8

import os
import pickle

class HMM(object):
    def __init__(self):
        self.load_para = False  #是否需要重新加标注好的数据集
        self.model_file = './hmm_model.pkl'  #标注好的数据集地址
        self.state_list = ['B', 'M', 'E', 'S']  #设定的四个状态值

    def try_load_model(self, trained):
        if trained:
            with open(self.model_file, 'rb') as f:
                self.A_dic = pickle.load(f)
                self.B_dic = pickle.load(f)
                self.Pi_dic = pickle.load(f)
                self.load_para = True
        else:
            self.A_dic = {}  #转移概率
            self.B_dic = {}  #发射概率
            self.Pi_dic = {}  #初始概率
            self.load_para = False

    def train(self, path):
        self.try_load_model(False)
        Count_dic = {}
        def init_parameters():
            for state in self.state_list:
                self.A_dic[state] = {s: 0.0 for s in self.state_list}
                self.Pi_dic[state] = 0.0
                self.B_dic[state] = {}
                Count_dic[state] = 0

        def makeLabel(text):
            out_text = []
            if len(text) == 1:
                out_text.append('S')
            else:
                out_text += ['B'] + ['M'] * (len(text) - 2) + ['E']
            return out_text

        init_parameters()
        line_num = -1
        words = set()

        with open(path, encoding='utf8') as f:
            for line in f:
                line_num += 1
                line = line.strip()
                if not line:
                    continue
                word_list = [i for i in line if i != ' ']
                words |= set(word_list)
                linelist = line.split()
                line_state = []
                for w in linelist:
                    line_state.extend(makeLabel(w))
                assert len(word_list) == len(line_state)
                for k, v in enumerate(line_state):
                    Count_dic[v] += 1
                    if k == 0:
                        self.Pi_dic[v] += 1  #每句话第一个字的状态，用于计算初始概率
                    else:
                        self.A_dic[line_state[k - 1]][v] += 1
                        self.B_dic[line_state[k]][word_list[k]] = \
                            self.B_dic[line_state[k]].get(word_list[k], 0) + 1.0  #计算发射概率

        self.Pi_dic = {k: v * 1.0 / line_num for k, v in self.Pi_dic.items()}
        self.A_dic = {k: {k1: v1 / Count_dic[k] for k1, v1 in v.items()}
                      for k, v in self.A_dic.items()}
        self.B_dic = {k: {k1: (v1 + 1) / Count_dic[k] for k1, v1 in v.items()}
                      for k, v in self.B_dic.items()}

        with open(self.model_file, 'wb') as f:
            pickle.dump(self.A_dic, f)
            pickle.dump(self.B_dic, f)
            pickle.dump(self.Pi_dic, f)
        return self

    def viterbi(self, text, states, start_p, trans_p, emit_p):
        V = [{}]
        path = {}

        for y in states:
            V[0][y] = start_p[y] * emit_p[y].get(text[0], 0)
            path[y] = [y]

        for t in range(1, len(text)):
            V.append({})
            newpath = {}
            neverSeen = text[t] not in emit_p['S'].keys() and \
                        text[t] not in emit_p['M'].keys() and \
                        text[t] not in emit_p['E'].keys() and \
                        text[t] not in emit_p['B'].keys()

            for y in states:
                emitP = emit_p[y].get(text[t], 0) if not neverSeen else 1.0
                (prob, state) = max(
                    [(V[t - 1][y0] * trans_p[y0].get(y, 0) * emitP, y0)
                     for y0 in states if V[t - 1][y0] > 0])
                V[t][y] = prob
                newpath[y] = path[state] + [y]
            path = newpath

        if emit_p['M'].get(text[-1], 0) > emit_p['S'].get(text[-1], 0):
            (prob, state) = max([(V[len(text) - 1][y], y) for y in ('E', 'M')])
        else:
            (prob, state) = max([(V[len(text) - 1][y], y) for y in states])
        return (prob, path[state])

    def cut(self, text):
        if not self.load_para:
            self.try_load_model(os.path.exists(self.model_file))
        prob, pos_list = self.viterbi(text, self.state_list, self.Pi_dic, self.A_dic, self.B_dic)
        begin, next = 0, 0

        for i, char in enumerate(text):
            pos = pos_list[i]
            if pos == 'B':
                begin = i
            elif pos == 'E':
                yield text[begin: i + 1]
                next = i + 1
            elif pos == 'S':
                yield char
                next = i + 1

        if next < len(text):
            yield text[next:]

hmm = HMM()
hmm.train('./trainCorpus.txt_utf8')
text = '人最宝贵的是生命，生命对于每个人只有一次……当回忆往事的时候，不会因为虚度年华而悔恨，也不会因为碌碌无为而羞愧……'
res = hmm.cut(text)
print("测试：",text)
print("效果：",str(list(res)))

条件随机场

条件随机场（CRF，Conditional Random Fields）

我爱北京天安门，SSBEBME，我/S 爱/S 北/B 京/E 天/B 安/M 门/E

HMM：P = P(s到s)*P('我'到s)* P(s到b)*P('爱'到s)* ...*P()
MEMM：P = P(s到s|'我'到s)*P('我'到s)* P(s到b|'爱'到s)*P('爱'到s)*...*P()
CRF：P= F(s到s,'我'到s)....F is a function.

HMM	P( λn 到 On ) * P( o )，状态概率 * 转移概率	计算状态分布
MEMM	P( λ \| o ) * P( o )，发射概率 * 转移概率	计算局部联合概率
CRF	F( λn 到 On, On 到 On )，状态概率和转移概率的函数	全局归一化后计算联合概率

神经网络分词（deep learning：CNN、LSTM等）

理解分词

模拟人对句子的理解，从语义的角度，通过分词系统、句法语义和总控三部分来识别词语并处理歧义现象。

……中国 / 人……
……中 / 国人……

知识图谱

(中文)知识图谱（KG，Knowledge Graph）：由于汉语言知识的笼统、复杂性，难以将各种字/词信息组成其可直接读取的形式，因此目前基于理解的分词技术还处于学术探索阶段，真正落地的项目/产品极少，业界多在炒概念。See more：

http://www.openkg.cn/

基于Python语言的中文分词工具（jieba v.s pyltp）对比

功能	-	jieba	pyltp
分句	分句		O
分词	全模式	O
分词	精准模式	O	O
分词	搜索引擎模式	O
新词发现	新词发现	O
自定义词典	词语	O	O
自定义词典	词频	O
自定义词典	词性	O	O
关键词抽取	TF-IDF算法的关键词抽取	O
关键词抽取	TextRank算法的关键词抽取	O
词性标注	词性标注		O
命名实体识别	命名实体识别		O
依存句法分析	依存句法分析		O
语义角色标注	语义角色标注		O
其它功能	其它功能	并行分词	个性化分词
		返回词语在原文的起止位置
		自定义分词器
		调整词典
		调整词频和显示

NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Python的情感词典情感分析和情绪计算 yava_free python 大数据人工智能
一.大连理工中文情感词典情感分析(SentimentAnalysis)和情绪分类(EmotionClassification）都是非常重要的文本挖掘手段。情感分析的基本流程如下图所示，通常包括：自定义爬虫抓取文本信息；使用Jieba工具进行中文分词、词性标注；定义情感词典提取每行文本的情感词；通过情感词构建情感矩阵，并计算情感分数；结果评估，包括将情感分数置于0.5到-0.5之间，并可视化显示。目
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
自然语言处理系列八》中文分词》规则分词》正向最大匹配法陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据算法人工智能编程语言 java 自然语言处理
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列八规则分词正向最大匹配法总结自然语言处理系列八规则分词规则分词是基于字典、词库匹配的分词方法（机械分词法），其实现的主要思想是：切分语句时，将语句特定长的字符串与字典进行匹配，匹配成功就进行切分。按照匹配的方式可分为：正向最
Java 结合elasticsearch-ik分词器，实现评论的违规词汇脱敏等操作八百码 elasticsearch 大数据搜索引擎
IK分词（IKAnalyzer）是一款基于Java开发的中文分词工具，它结合了词典分词和基于统计的分词方法，旨在为用户提供高效、准确、灵活的中文分词服务。注意：需要自己建立一个敏感词库，然后自己选择方式同步到elasticsearch中，方便比对操作话不多说，直接上后台代码这个依赖是我使用的，可以结合自己的情况自己选择适用版本的相关依赖org.elasticsearchelasticsearcho
文本分析之关键词提取（TF-IDF算法） SEVEN-YEARS tf-idf
键词提取是自然语言处理中的一个重要步骤，可以帮助我们理解文本的主要内容。TF-IDF（TermFrequency-InverseDocumentFrequency）是一种常用的关键词提取方法，它基于词频和逆文档频率的概念来确定词语的重要性。准备工作首先，我们需要准备一些工具和库，包括Pandas、jieba（结巴分词）、sklearn等。Pandas：用于数据处理。jieba：用于中文分词。skl
MySQL 实现模糊匹配 flying jiang 架构设计数据库 mysql 数据库
摘要：在不依赖Elasticsearch等外部搜索引擎的情况下，您依然能够充分利用MySQL数据库内置的LIKE和REGEXP操作符来实现高效的模糊匹配功能。针对更为复杂的搜索需求，尤其是在处理大型数据集时，结合使用IK分词器（虽然IK分词器本身主要用于中文分词，在Elasticsearch等搜索引擎中广泛应用，但可以通过一些创造性的方法间接应用于MySQL环境）可以显著提升搜索的准确性和效率。正
Python数据可视化词云展示周董的歌 PathonDiss
马上开始了，你准备好了么准备工作环境：Windows+Python3.6IDE：根据个人喜好，自行选择模块：Matplotlib是一个Python的2D数学绘图库pipinstallmatplotlibimportmatplotlib.pyplotaspltjieba中文分词库pipinstalljiebaimportjiebawordcloud词云库pipinstallwordcloudfrom
android sqlite 分词,sqlite3自定义分词器雷幺幺 android sqlite 分词
sqlite3通过使用fts3虚表支持全文搜索，默认支持simple和porter两种分词器，并提供了接口来自定义分词器。这里我们利用mmseg来构造自定义的中文分词器。虽然sqlite在fts3_tokenizer.h中提供了各种接口供用户自定义分词器，但其并未提供c函数供用户来注册自定义的分词器，分词器的注册必须使用sql语句来完成。SELECTfts3_tokenizer(,);其中toke
自然语言处理NLP之中文分词和词性标注陈敬雷-充电了么-CEO兼CTO 自然语言处理
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录一、Python第三方库jieba（中文分词、词性标注）特点二、jieba中文分词的安装关键词抽取基于TF-IDF算法TF-IDF原理介绍基于TextRank算法的关键词抽取textRank算法原理介绍总结一、Python第三方库jieba
ElasticSearch HW-- elasticsearch
一、适用场景全文搜索：1.电商搜索2.站内搜索3.文档管理系统4.论坛和社交媒体日志分析与监控：1.服务器日志2.应用日志3.运维监控数据分析：1.业务分析2.时序数据分析NoSQLJSON文档数据库：作为JSON文档数据库使用搜索推荐实现个性化搜索和推荐功能地理信息系统存储和查询带有地理信息的数据大规模监控系统二、为什么要安装分词器？IK分词器中针对中文分词提供了ik_smart和ik_max_
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
HanLP实战教程：离线本地版分词与命名实体识别 Tim_Van 中文分词命名实体识别自然语言处理
HanLP是一个功能强大的自然语言处理库，提供了多种语言的分词、命名实体识别等功能。然而，网上关于HanLP的说明往往比较混乱，很多教程都是针对很多年前的API用法。而HanLP官网主要讲述的是RESTful格式的在线请求，但很少提到离线本地版本。本文将介绍如何在离线本地环境中使用HanLP2.1的nativeAPI进行中文分词和命名实体识别。本文使用的HanLP版本为HanLP2.1.0-bet
es安装中文分词器 IK 我要好好学java elasticsearch 中文分词大数据
1.下载https://github.com/medcl/elasticsearch-analysis-ik这个是官方的下载地址，下载跟自己es版本对应的即可那么需要下载7.12.0版本的分词器2.安装1.在es的plugins的文件夹下先创建一个ik目录bashcd/home/apps/elasticsearch/plugins/mkdirik2.然后将下载解压后的文件放入到ik文件夹下3.重启
python笔记——jieba库 Toby不写代码 python学习 python
文章目录一.概述二.jieba库使用三.实例一.概述1.jieba库概述jieba库是一个重要的第三方中文分词函数库，不是安装包自带的，需要通过pip指令安装pip3installjieba二.jieba库使用1.库函数jieba.cut(s)——精确模式，返回一个可迭代数据类型jieba.cut(s,cut_all=True)——全模式，输出文本s中可能的单词jieba.cut_for_sear
什么是jieba？ zg1g easyui 前端 javascript ecmascript 前端框架
简介jieba是一个流行的中文分词工具，它能够将一段文本切分成有意义的词语。它是目前Python中最常用的中文分词库之一，具有简单易用、高效准确的特点。该库能够处理多种文本分析任务，如情感分析、关键词提取、文本分类等。安装在使用jieba库之前，需要先安装它。可以通过pip命令来进行安装：pip install jieba分词方法jieba库提供了三种分词方法：精确模式、全模式和搜索引擎模式。精确
基于jieba库实现中文词频统计 kongxx
要实现中文分词功能，大家基本上都是在使用jieba这个库来实现，下面就看看怎样实现一个简单文本分词功能。安装python的工具，安装当然是使用pip安装了。pipinstalljieba使用先看一个小例子，下面的代码是从一个文本文件中分词并统计出现频率最高的10个单词，并打印到控制台。#!/usr/bin/envpython#-*-coding:utf-8-*-importjiebaimportj
如何使用Python进行地址信息(省/市/区/姓名/电话)提取
在数据处理和分析的领域中，地址信息提取是一个常见且关键的任务。Python，作为一门功能强大的编程语言，配合一些专门的库，可以有效地帮助我们从一段文本中提取出详细的地址信息。本文将结合具体的代码示例，详细介绍如何使用Python进行地址信息的提取。准备工作在开始之前，我们需要安装一些必要的Python库：jieba：一个中文分词库，可以用来识别中文文本中的词语。paddle：百度开发的深度学习平台
NLP学习（二）—中文分词技术陈易德 NLP自然语言处理
本次代码的环境：运行平台：WindowsPython版本：Python3.xIDE：PyCharm一、前言这篇内容主要是讲解的中文分词，词是一个完整语义的最小单位。分词技术是词性标注、命名实体识别、关键词提取等技术的基础。本篇博文会主要介绍基于规则的分词、基于统计的分词、jieba库等内容。一直在说中文分词，那中文分词和欧语系的分词有什么不同或者说是难点的呢？主要难点在于汉语结构与印欧体系语种差异
NLP词典切分算法卡拉比丘流形自然语言处理自然语言处理 python
目录一、词典的加载二、切分算法2.1完全切分2.2正向最长匹配2.3逆向最长匹配2.4双向最长匹配3.速度测评词的定义在语言学上，词语的定义是具备独立意义的最小单位在基于词典的中文分词中，词典中的字符串就是词词的性质一、词典的加载加载HanLP附带的迷你核心词典frompyhanlpimport*defload_dictionary():"""加载HanLP中的mini词库:return:一个se
Python 词云【中/英】小白简单入门教程嗨学编程
1.分析构建词云需要具备：原料即文章等内容将内容进行分词将分词后的内容利用构建词云的工具进行构建保存成图片2.需要的主要模块jieba中文分词wordcloud构建词云3.模块原理wordcloud的实现原理文本预处理词频统计将高频词以图片形式进行彩色渲染jieba的实现原理进行中文分词（有多种模式）4.英文词云英文分词和构建词云只需要wordcloud模块Python学习资料或者需要代码、视频加
java多线程封装_【原创】中文分词系统 ICTCLAS2015 的JAVA封装和多线程执行（附代码）... 洪文律所 java多线程封装
本文针对的问题是ICTCLAS2015的多线程分词，为了实现多线程做了简单的JAVA封装。如果有需要可以自行进一步封装其它接口。首先ICTCLAS2015的传送门(http://ictclas.nlpir.org/)，其对中文分词做的比较透彻，而且有一定的可调式性。但是应用到实际开发中的话，多线程操作是必须的，因此有了本文的初衷。可能有的小伙伴不太清楚ICTCLASS是干嘛的，下面是一段介绍：NL
华为OD机试真题C卷-篇2 laufing 算法与数据结构(python)华为od 算法刷题 python
文章目录启动多任务排序有效子字符串最长子字符串的长度最长子字符串的长度（二）两个字符串间的最短路径问题生成Huffman树可以处理的最大任务中文分词模拟器手机App防沉迷系统根据IP查找城市文件缓存系统寻找最优的路测线路Wonderland游乐园项目排期/最少交付时间灰度图存储精准核酸检测运输时间启动多任务排序A任务依赖B任务，执行时需要先执行B任务，完成后才可以执行A任务；若一个任务不依赖其他任
elasticsearch使用ik中文分词器 huan1993
一、背景es自带了一堆的分词器，比如standard、whitespace、language(比如english)等分词器，但是都对中文分词的效果不太好，此处安装第三方分词器ik，来实现分词。二、安装ik分词器1、从github上找到和本次es版本匹配上的分词器#下载地址https://github.com/medcl/elasticsearch-analysis-ik/releases2、使用e
TF-IDF入门与实例 lawenliu
我们对文档分析的时候，通常需要提取关键词，中文分词可以使用jieba分词，英文通过空格和特殊字符分割即可。那么分割之后是不是出现频率越高这些词就能越好代表这篇文章描述的内容呢？答案是否定的，比如英文中常见的词a、an等，中文中常见的“的”、“你”等等。有一些词可以通过过滤stopWord词表去掉，但是对于领域文档分析就会遇到更复杂的情况，比如需要把100份文档分到不同的领域，提取每个领域的关键词；
【2023华为OD-C卷-第三题-中文分词模拟器】100%通过率（JavaScript&Java&Python&C++）塔子哥学算法华为od c语言中文分词
本题已有网友报告代码100%通过率OJ&答疑服务购买任意专栏，即可添加博主vx:utheyi，获取答疑/辅导服务OJ权限获取可以在购买专栏后访问网站：首页-CodeFun2000题目描述给定一个连续不包含空格的字符串，该字符串仅包含英文小写字母及英文标点符号(逗号、分号、句号)，同时给定词库，对该字符串进行精确分词。说明：精确分词：字符串分词后，不会出现重叠。即"ilovechina",不同词库可
自然语言处理从零到入门分词 BlackStar_L 自然语言处理与文本检索自然语言处理人工智能
自然语言处理从零到入门分词–Tokenization一、什么是分词？二、为什么要分词？三、中英文分词的3个典型区别四、中文分词的3大难点五、3种典型的分词方法六、分词工具总结参考分词是NLP的基础任务，将句子，段落分解为字词单位，方便后续的处理的分析。本文将介绍分词的原因，中英文分词的3个区别，中文分词的3大难点，分词的3种典型方法。最后将介绍中文分词和英文分词常用的工具。一、什么是分词？分词是自
NLP入门系列—分词 Tokenization 不二人生自然语言处理自然语言处理人工智能
NLP入门系列—分词Tokenization分词是NLP的基础任务，将句子，段落分解为字词单位，方便后续的处理的分析。本文将介绍分词的原因，中英文分词的3个区别，中文分词的3大难点，分词的3种典型方法。最后将介绍中文分词和英文分词常用的工具。分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。词是一个比较合适的粒度词是表达完整含义的最小单位。字的粒度太小，无
07、全文检索 -- Solr -- Solr 全文检索之为索引库添加中文分词器 _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr 中文分词
目录Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词器的jar包2、修改managed-schema配置文件什么是fieldType3、添加停用词文档4、重启solr5、添加【*_cn】动态字段，并为该字段设置中文分词器6、演示分词器的区别演示text_cjk这个简单的分词器演示text_cn这个中文分词器Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词
Python 中 jieba 库 SteveKenny python python 开发语言后端
文章目录jieba库一、简介1、是什么2、安装二、基本使用1、三种模式2、使用语法2.1对词组的基本操作2.2关键字提取2.3词性标注2.4返回词语在原文的起止位置jieba库一、简介1、是什么（1）jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语jieba是优秀的中文分词第三方库，需要额外安装jieba库提供三种分词模式，最简单只需掌握一个函数（2）jieba分词的原理jie
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d