sungang_1120

中文分词中的trie检索树实现

原贴:http://hi.baidu.com/cuifenghui/blog/item/d66ff3360198db350b55a964.html

中文分词中的trie检索树实现

这几天在研究中文分词，目前已经研究试验了基于词典的常用中文分词算法，包括正向最大匹配、逆向最大匹配、整词二分法、基于tire的中文分词、逐词二分法、双字多字hash的方法，稍后的文章会提及中文分词的方法和程序。此篇文章是基于tire的中文分词中检索树的实现，希望对tire感兴趣或者想研究中文分词的朋友有所帮助，仅做交流。

firstChHash.h头文件内容：

/*
描述: 首字hash函数的实现和说明
作者: xiaocui
时间: 2008.2.27
版本: v1.0
*/

/* 首字hash方法: 在整词二分法，基于Trie树的分词方法，逐字二分法，多次
hash方法中，第一部都需要首字hash方法。首字hash方法采用2级hash策略，对
gb2312编码中的常用汉字，利用gb2312编码的区位码概念，hash函数为:
index = (区号 - 0xA0 - 16) * 94 + (位号 - 0xA0 - 1)，index为该汉字的索引。
由于gb2312中汉字有限，对没有出现在gb2312编码中的汉字，利用其gbk编码中的
高字节、低字节概念进行类似的hash，gbk的hash作为二次hash。下面先给出关于
gb2312和gbk编码的一些背景知识。

背景知识:GB2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个.
GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式
也称为区位码。具体分区为:

01-09区为特殊符号。
16-55区为一级汉字，按拼音排序。
56-87区为二级汉字，按部首/笔画排序。
10-15区及88-94区则未有编码。

举例来说，“啊”字是GB2312之中的第一个汉字，它的区位码就是1601。

为了区分汉字字符和ascii码，汉字的区码和位码都加上了OxA0,所以最高位都为1,
char显示为负值。通过(char + 256) % 256可以得到其对应的正值。

//////////////////////////////////////////////////////////////////////////
gbk编码介绍:
子集   编码范围      编码空间编码字数
     ===== ============= ======== =========
     GBK/1 0xA1A1-0xA9FE     846         717
     GBK/2 0xB0A1-0xF7FE   6,768       6,763 //这一部分向后兼容gb2312编码
     GBK/3 0x8140-0xA0FE   6,080       6,080
     GBK/4 0xAA40-0xFEA0   8,160       8,160
     GBK/5 0xA840-0xA9A0     192         166
     EUDC/1 0xAAA1-0xAFFE     564     用户定义1
     EUDC/2 0xF8A1-0xFEFE     658     用户定义2
     EUDC/3 0xA140-0xA7A0     672     用户定义3

从上表可以看出，GBK共提供了23,940字的编码空间, 实际定义了 21,886汉字，可用户定义1,894汉字。双字节编码规则如下：

第一字节 0x81-0xFE
第二字节 0x40-0x7E, 0x80-0xFE；每行定义190汉字
*/

/* 首字hash函数1,针对gb2312拥有的99.5%的常用汉字的hash
   输入: 汉字(分高低2字节)
   输出: 该汉字的索引号
*/
#include <iostream>
using namespace std;
inline int hashGb2312(const char* ch)
{
//检验是不是gb2312编码
if ( ((ch[0] + 256) % 256 - 0xA0 < 16) || ((ch[0] + 256) % 256 - 0xA0 > 87) )//gb2312汉字编码高位从第16区到第87区
{
   return -1;
}
if ( ((ch[1] + 256) % 256 - 0xA0 < 1) || ((ch[1] + 256) % 256 - 0xA0 > 94) )//gb2312汉字编码低位从1到94
{
   return -1;
}
int sectionIndex = (ch[0] + 256) % 256 - 0xA0 - 16; //区号(基数为0),减16因为gb2312前15区没用，汉字区号从第16区开始
int locationIndex = (ch[1] + 256) % 256 - 0xA0 - 1; //位号(基数为0),减1因为gb2312位号从1开始，希望从0开始，故减1

int index = sectionIndex * 94 + locationIndex; //gb2312每区94个字符，这个保证hash的结果和区位码是一一对应的

return index;
}
/*首字hash函数2,针对gb2312编码中没有出现的汉字的hash函数
输入: 汉字(分高低2字节)
输出: 该汉字的索引号
*/
inline int hashGbk(const char* ch)
{
int highIndex = (ch[0] + 256) % 256 - 0x81;
int lowIndex;
if ( (ch[1]+256)% 256 > 0x7f )
{
lowIndex = (ch[1] + 256) % 256 - 0x40 - 1; //第二字节不能是0x7f，所以第二字节比0x7f大的再多减1，这样防止hash空白空间的浪费
}
else
{
lowIndex = (ch[1] + 256) % 256 - 0x40;
}
int index = highIndex * 190 + lowIndex;

return index;
}

trieTree.h头文件内容：

#include <vector>
using namespace std;

/* 检索树节点定义 */
struct node
{
vector<char*> mKeyWordVec; //关键字向量(递增顺序,便于以后二分查找)
vector<node*> mLinkVec; //指向子检索树的指针向量
};

/* 检索树类的定义 */
class trieTree
{
public:
trieTree(node* root = NULL):mRoot(root){}
node* getTrieTreeRoot() const
{
return mRoot;
}
trieTree& insert(const char* str); //增加新的字符串
trieTree& del(const char* str); //删除指定字符串
bool find(const char* str); //在检索树中查找指定字符串
trieTree findCh(const char* ch); //在检索树中检索单独汉字
private:
node* mRoot;
};

/* 根据区位码比较2个汉字序列的大小
输入: 2个汉字序列
输出: 0表示2个汉字序列相等;正数1表示前者大，负数1表示前者小
*/
int wordCmp(const char* chineseWord1, const char* chineseWord2);

/* 汉字的二分查找 */
int bSearch(const vector<char*>& vec, const char* word);

/* 特殊二分查找，如果在有序序列中没有找到指定元素，返回该元素应该被插入的位置 */
int specBSearch(const vector<char*>& vec, char* word);

/* 有序序列的插入，返回插入的位置 */
int insertToVec(vector<char*>& vec, char* word);

实现和测试文件：

// trieTree.cpp : Defines the entry point for the console application.
//
/*
描述: 自己实现的检索树
作者: xiaocui
时间: 2008.2.27
版本: v1.0
*/

#include "stdafx.h"
#include "trieTree.h"
#include "firstChHash.h"
#include <iostream>
#include <vector>
#include <string>
using namespace std;

/* 根据区位码比较2个汉字序列的大小
   输入: 2个汉字序列
   输出: 0表示2个汉字序列相等;正数1表示前者大，负数1表示前者小
*/
int wordCmp(const char* chineseWord1, const char* chineseWord2)
{
size_t len1 = strlen(chineseWord1);
size_t len2 = strlen(chineseWord2);
int firstIndex;
int secondIndex;
size_t i;
for (i = 0; i < (len1 < len2 ? len1 : len2); i += 2)
{
   char ch1[3];
   ch1[0] = chineseWord1[i];
   ch1[1] = chineseWord1[i+1];
   ch1[2] = '/0';
   char ch2[3];
   ch2[0] = chineseWord2[i];
   ch2[1] = chineseWord2[i+1];
   ch2[2] = '/0';
   firstIndex = hashGb2312(ch1);
   secondIndex = hashGb2312(ch2);

   if ( (firstIndex >= 0) && (secondIndex >= 0) && (firstIndex < secondIndex) ) //2个首字都是gb2312的常用汉字
   {
    return -1;
   }
   else if ( (firstIndex >= 0) && (secondIndex >= 0) && (firstIndex > secondIndex) )
   {
    return 1;
   }
   else if ( (firstIndex < 0) && (secondIndex >= 0) )//第1个汉字不在gb2312编码中(gbk中),第2个汉字是gb2312常用汉字
   {
    return 1;
   }
   else if ((firstIndex >= 0) && (secondIndex < 0) )//第1个汉字是gb2312常用汉字，第2个汉字不在gb2312编码中(gbk中)
   {
    return -1;
   }
   else if ( (firstIndex < 0) && (secondIndex < 0) )//2个汉字都不是gb2312常用汉字
   {
    firstIndex = hashGbk(ch1);
    secondIndex = hashGbk(ch2);
    if ( firstIndex < secondIndex )
    {
     return -1;
    }
    else if ( firstIndex > secondIndex )
    {
     return 1;
    }
   }
}
if ( i < len1 )
{
   return 1;
}
else if ( i < len2 )
{
   return -1;
}

return 0;
}

/* 汉字的二分查找 */
int bSearch(const vector<char*>& vec, const char* word)
{
int low = 0;
int high = int(vec.size() - 1); //如果空向量，直接返回-1，-1表示找不到该汉字
while ( low <= high )
{
   int mid = (low + high) / 2;
   if ( wordCmp(vec[mid], word) == 0 )
   {
    return mid;
   }
   else if ( wordCmp(vec[mid], word) < 0 )
   {
    low = mid + 1;
   }
   else if ( wordCmp(vec[mid], word) > 0 )
   {
    high = mid - 1;
   }
}

return -1;
}

/* 特殊二分查找，如果在有序序列中没有找到指定元素，返回该元素应该被插入的位置 */
int specBSearch(const vector<char*>& vec, char* word)
{
int low = 0;
int high = int(vec.size() - 1); //如果空向量，insertPoint返回0，表示插入在首位置
int insertPoint = 0; //如果已在序列中，插入点-1，无需插入；初始化为0，防止要插入的汉字比序列里的汉字都小
while ( low <= high )
{
   int mid = (low + high) / 2;
   if ( wordCmp(vec[mid], word) == 0 )
   {
    return -1;
   }
   else if ( wordCmp(vec[mid], word) < 0 )
   {
    low = mid + 1;
    insertPoint = low;
   }
   else
   {
    high = mid - 1;
   }
}

return insertPoint;
}

/* 有序序列的插入，返回插入的位置 */
int insertToVec(vector<char*>& vec, char* word)
{
int insertPoint = specBSearch(vec, word); //得到插入点
if ( insertPoint == -1 )
{
return -1;
}
vec.insert(vec.begin() + insertPoint, word);

return insertPoint;
}

/* 增添新字符串 */
trieTree& trieTree::insert(const char* str)
{
char* ch = new char[3]; //此处用动态存储，是为了长久保留汉字
ch[0] = str[0];
ch[1] = str[1];
ch[2] = '/0'; //取得汉字字符串的第一个汉字
if ( mRoot == NULL ) //检索树为空
{
   mRoot = new node;
   mRoot->mKeyWordVec.push_back(ch);
   mRoot->mLinkVec.push_back(NULL);
   const char* s = str + 2; //除第一个汉字外的子串
   if ( *s != '/0' ) //子串不为空(表明还有子节点)
   {
    node* n = new node;
    trieTree child(n); //子检索树
    mRoot->mLinkVec[0] = n; //连接到子节点
    child.insert(s); //在子检索树递归插入
   }
   else
   {
    node* n = new node;
    n->mKeyWordVec.push_back("##"); //存储"##"表示一个词的结束
    n->mLinkVec.push_back(NULL);
    mRoot->mLinkVec[0] = n;
   }
}
else if ( mRoot != NULL )
{
   int index = bSearch(mRoot->mKeyWordVec, ch); //在根节点查找第一个汉字
   if ( index != -1 ) //第一个汉字已经存在
   {
    const char* s = str + 2;
    if ( *s != '/0' )
    {
     node* n = mRoot->mLinkVec[index];
     trieTree child(n);
     child.insert(s);
    }
    else
    {
     node* n = new node;
     n->mKeyWordVec.push_back("##"); //存储"##"表示一个词的结束
     n->mLinkVec.push_back(NULL);
     mRoot->mLinkVec[index] = n;
    }
   }
   else
   {
    int insertPoint = insertToVec(mRoot->mKeyWordVec, ch);
    mRoot->mLinkVec.insert(mRoot->mLinkVec.begin() + insertPoint, NULL);
    const char* s = str + 2;
    if ( *s != '/0' )
    {
     node* n = new node;
     trieTree child(n); //子检索树
     mRoot->mLinkVec[insertPoint] = n; //连接到子节点
     child.insert(s);
    }
    else
    {
     node* n = new node;
     n->mKeyWordVec.push_back("##"); //存储"##"表示一个词的结束
     n->mLinkVec.push_back(NULL);
     mRoot->mLinkVec[insertPoint] = n;
    }
   }
}

return *this;
}

/* 删除指定字符串 */
trieTree& trieTree::del(const char* str)
{
if ( mRoot == NULL )
{
return *this;
}
if ( find(str) == false ) //指定字符串在检索树中不存在
{
return *this;
}

//下面统计每个汉字的分支
size_t len = strlen(str);
vector<int> countVec(len/2); //记录分支数，0表示只有一条分支，1表示有多条分支
node* p = mRoot;
node* q;
char ch[3];
for (size_t i = 0; i < len; i += 2)
{
   ch[0] = str[i];
   ch[1] = str[i+1];
   ch[2] = '/0';
   int index = bSearch(p->mKeyWordVec, ch);
   q = p->mLinkVec[index];
   if ( q->mKeyWordVec.size() > 1 )
   {
    countVec[i/2] = 1;
   }
   else
   {
    countVec[i/2] = 0;
   }
   p = q;
}
//寻找最后一个1的位置(这个1说明前面的字组成的前缀对其他词还有用，不能删，从最后那个1的位置(那个字)可以删除
int pos = -1;
for (int i = int(countVec.size() -1); i >= 0; --i)
{
   if ( countVec[i] == 1 )
   {
    pos = i;
    break;
   }
}
//删掉单分支(单分支对其他词无影响)
p = mRoot;
const char* s = str;
for (int i = 0; i <= pos; ++i)
{
   ch[0] = *s;
   ch[1] = *(s+1);
   ch[2] = '/0';
   s = s + 2; //向后移动一个汉字
   int index = bSearch(p->mKeyWordVec, ch);
   p = p->mLinkVec[index];
}

if ( *s == '/0' ) //当前有多路分支的字是最后一个字，最后一个字有多路分支，只删除该词的结尾符即可
{
   int index = bSearch(p->mKeyWordVec, "##");
   p->mKeyWordVec.erase(p->mKeyWordVec.begin() + index);
   p->mLinkVec.erase(p->mLinkVec.begin() + index);
   return *this;
}
while ( *s != '/0' )
{
   ch[0] = *s;
   ch[1] = *(s+1);
   ch[2] = '/0';
   int index = bSearch(p->mKeyWordVec, ch);
   node* q = p->mLinkVec[index];
   p->mKeyWordVec.erase(p->mKeyWordVec.begin() + index);
   p->mLinkVec.erase(p->mLinkVec.begin() + index);
   p = q;
   s = s + 2;
}
if ( *s == '/0' )
{
   delete p; //删除结束符节点
   return *this;
}

return *this;
}

/* 在检索树中查找指定字符串 */
bool trieTree::find(const char* str)
{
char ch[3];
ch[0] = str[0];
ch[1] = str[1];
ch[2] = '/0'; //取得汉字字符串的第一个汉字
int index = bSearch(mRoot->mKeyWordVec, ch);
if ( index == -1 )
{
   return false; //第一个汉字没有查找到，直接返回
}
else
{
   const char* s = str + 2; //取得除第一个汉字外的剩余字符串
   if ( *s != '/0' )
   {
    if ( mRoot->mLinkVec[index] == NULL ) //字符串没有结束，检索树中前缀已经结束，该词不存在
    {
     return false;
    }
    trieTree child(mRoot->mLinkVec[index]); //得到子检索树
    return child.find(s); //在子检索树递归查找子字符串
   }
   else
   {
    node* n = mRoot->mLinkVec[index];
    if ( bSearch(n->mKeyWordVec, "##") != -1 )
    {
     return true;
    }
    else
    {
     return false;
    }
   }
}

return true; //all path return
}

/* 在检索树中检索单独汉字，如果存在返回子检索树 */
trieTree trieTree::findCh(const char* ch)
{
int index = bSearch(mRoot->mKeyWordVec, ch);
if ( index == -1 )
{
trieTree rst; //空检索树,mRoot == NULL
return rst;
}
trieTree rst(mRoot->mLinkVec[index]);
return rst;
}

int main()
{
//test
trieTree obj;
obj.insert("啊啊");
obj.insert("阿波罗");
obj.insert("篮球");
obj.insert("篮板");
cout << obj.find("啊") << endl;
cout << obj.find("篮球") << endl;
cout << obj.find("篮筐") << endl;
obj.del("篮球");
cout << obj.find("篮球") << endl;

return 0;
}

NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Python的情感词典情感分析和情绪计算 yava_free python 大数据人工智能
一.大连理工中文情感词典情感分析(SentimentAnalysis)和情绪分类(EmotionClassification）都是非常重要的文本挖掘手段。情感分析的基本流程如下图所示，通常包括：自定义爬虫抓取文本信息；使用Jieba工具进行中文分词、词性标注；定义情感词典提取每行文本的情感词；通过情感词构建情感矩阵，并计算情感分数；结果评估，包括将情感分数置于0.5到-0.5之间，并可视化显示。目
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es weixin_39962285 python连接es
一.IK中文分词器1.下载安装2.测试#显示结果{"tokens":[{"token":"上海","start_offset":0,"end_offset":2,"type":"CN_WORD","position":0},{"token":"自来水","start_offset":2,"end_offset":5,"type":"CN_WORD","position":1},{"token":"
自然语言处理系列八》中文分词》规则分词》正向最大匹配法陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据算法人工智能编程语言 java 自然语言处理
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列八规则分词正向最大匹配法总结自然语言处理系列八规则分词规则分词是基于字典、词库匹配的分词方法（机械分词法），其实现的主要思想是：切分语句时，将语句特定长的字符串与字典进行匹配，匹配成功就进行切分。按照匹配的方式可分为：正向最
Java 结合elasticsearch-ik分词器，实现评论的违规词汇脱敏等操作八百码 elasticsearch 大数据搜索引擎
IK分词（IKAnalyzer）是一款基于Java开发的中文分词工具，它结合了词典分词和基于统计的分词方法，旨在为用户提供高效、准确、灵活的中文分词服务。注意：需要自己建立一个敏感词库，然后自己选择方式同步到elasticsearch中，方便比对操作话不多说，直接上后台代码这个依赖是我使用的，可以结合自己的情况自己选择适用版本的相关依赖org.elasticsearchelasticsearcho
文本分析之关键词提取（TF-IDF算法） SEVEN-YEARS tf-idf
键词提取是自然语言处理中的一个重要步骤，可以帮助我们理解文本的主要内容。TF-IDF（TermFrequency-InverseDocumentFrequency）是一种常用的关键词提取方法，它基于词频和逆文档频率的概念来确定词语的重要性。准备工作首先，我们需要准备一些工具和库，包括Pandas、jieba（结巴分词）、sklearn等。Pandas：用于数据处理。jieba：用于中文分词。skl
MySQL 实现模糊匹配 flying jiang 架构设计数据库 mysql 数据库
摘要：在不依赖Elasticsearch等外部搜索引擎的情况下，您依然能够充分利用MySQL数据库内置的LIKE和REGEXP操作符来实现高效的模糊匹配功能。针对更为复杂的搜索需求，尤其是在处理大型数据集时，结合使用IK分词器（虽然IK分词器本身主要用于中文分词，在Elasticsearch等搜索引擎中广泛应用，但可以通过一些创造性的方法间接应用于MySQL环境）可以显著提升搜索的准确性和效率。正
Python数据可视化词云展示周董的歌 PathonDiss
马上开始了，你准备好了么准备工作环境：Windows+Python3.6IDE：根据个人喜好，自行选择模块：Matplotlib是一个Python的2D数学绘图库pipinstallmatplotlibimportmatplotlib.pyplotaspltjieba中文分词库pipinstalljiebaimportjiebawordcloud词云库pipinstallwordcloudfrom
android sqlite 分词,sqlite3自定义分词器雷幺幺 android sqlite 分词
sqlite3通过使用fts3虚表支持全文搜索，默认支持simple和porter两种分词器，并提供了接口来自定义分词器。这里我们利用mmseg来构造自定义的中文分词器。虽然sqlite在fts3_tokenizer.h中提供了各种接口供用户自定义分词器，但其并未提供c函数供用户来注册自定义的分词器，分词器的注册必须使用sql语句来完成。SELECTfts3_tokenizer(,);其中toke
自然语言处理NLP之中文分词和词性标注陈敬雷-充电了么-CEO兼CTO 自然语言处理
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录一、Python第三方库jieba（中文分词、词性标注）特点二、jieba中文分词的安装关键词抽取基于TF-IDF算法TF-IDF原理介绍基于TextRank算法的关键词抽取textRank算法原理介绍总结一、Python第三方库jieba
ElasticSearch HW-- elasticsearch
一、适用场景全文搜索：1.电商搜索2.站内搜索3.文档管理系统4.论坛和社交媒体日志分析与监控：1.服务器日志2.应用日志3.运维监控数据分析：1.业务分析2.时序数据分析NoSQLJSON文档数据库：作为JSON文档数据库使用搜索推荐实现个性化搜索和推荐功能地理信息系统存储和查询带有地理信息的数据大规模监控系统二、为什么要安装分词器？IK分词器中针对中文分词提供了ik_smart和ik_max_
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
HanLP实战教程：离线本地版分词与命名实体识别 Tim_Van 中文分词命名实体识别自然语言处理
HanLP是一个功能强大的自然语言处理库，提供了多种语言的分词、命名实体识别等功能。然而，网上关于HanLP的说明往往比较混乱，很多教程都是针对很多年前的API用法。而HanLP官网主要讲述的是RESTful格式的在线请求，但很少提到离线本地版本。本文将介绍如何在离线本地环境中使用HanLP2.1的nativeAPI进行中文分词和命名实体识别。本文使用的HanLP版本为HanLP2.1.0-bet
es安装中文分词器 IK 我要好好学java elasticsearch 中文分词大数据
1.下载https://github.com/medcl/elasticsearch-analysis-ik这个是官方的下载地址，下载跟自己es版本对应的即可那么需要下载7.12.0版本的分词器2.安装1.在es的plugins的文件夹下先创建一个ik目录bashcd/home/apps/elasticsearch/plugins/mkdirik2.然后将下载解压后的文件放入到ik文件夹下3.重启
python笔记——jieba库 Toby不写代码 python学习 python
文章目录一.概述二.jieba库使用三.实例一.概述1.jieba库概述jieba库是一个重要的第三方中文分词函数库，不是安装包自带的，需要通过pip指令安装pip3installjieba二.jieba库使用1.库函数jieba.cut(s)——精确模式，返回一个可迭代数据类型jieba.cut(s,cut_all=True)——全模式，输出文本s中可能的单词jieba.cut_for_sear
什么是jieba？ zg1g easyui 前端 javascript ecmascript 前端框架
简介jieba是一个流行的中文分词工具，它能够将一段文本切分成有意义的词语。它是目前Python中最常用的中文分词库之一，具有简单易用、高效准确的特点。该库能够处理多种文本分析任务，如情感分析、关键词提取、文本分类等。安装在使用jieba库之前，需要先安装它。可以通过pip命令来进行安装：pip install jieba分词方法jieba库提供了三种分词方法：精确模式、全模式和搜索引擎模式。精确
基于jieba库实现中文词频统计 kongxx
要实现中文分词功能，大家基本上都是在使用jieba这个库来实现，下面就看看怎样实现一个简单文本分词功能。安装python的工具，安装当然是使用pip安装了。pipinstalljieba使用先看一个小例子，下面的代码是从一个文本文件中分词并统计出现频率最高的10个单词，并打印到控制台。#!/usr/bin/envpython#-*-coding:utf-8-*-importjiebaimportj
如何使用Python进行地址信息(省/市/区/姓名/电话)提取
在数据处理和分析的领域中，地址信息提取是一个常见且关键的任务。Python，作为一门功能强大的编程语言，配合一些专门的库，可以有效地帮助我们从一段文本中提取出详细的地址信息。本文将结合具体的代码示例，详细介绍如何使用Python进行地址信息的提取。准备工作在开始之前，我们需要安装一些必要的Python库：jieba：一个中文分词库，可以用来识别中文文本中的词语。paddle：百度开发的深度学习平台
NLP学习（二）—中文分词技术陈易德 NLP自然语言处理
本次代码的环境：运行平台：WindowsPython版本：Python3.xIDE：PyCharm一、前言这篇内容主要是讲解的中文分词，词是一个完整语义的最小单位。分词技术是词性标注、命名实体识别、关键词提取等技术的基础。本篇博文会主要介绍基于规则的分词、基于统计的分词、jieba库等内容。一直在说中文分词，那中文分词和欧语系的分词有什么不同或者说是难点的呢？主要难点在于汉语结构与印欧体系语种差异
NLP词典切分算法卡拉比丘流形自然语言处理自然语言处理 python
目录一、词典的加载二、切分算法2.1完全切分2.2正向最长匹配2.3逆向最长匹配2.4双向最长匹配3.速度测评词的定义在语言学上，词语的定义是具备独立意义的最小单位在基于词典的中文分词中，词典中的字符串就是词词的性质一、词典的加载加载HanLP附带的迷你核心词典frompyhanlpimport*defload_dictionary():"""加载HanLP中的mini词库:return:一个se
Python 词云【中/英】小白简单入门教程嗨学编程
1.分析构建词云需要具备：原料即文章等内容将内容进行分词将分词后的内容利用构建词云的工具进行构建保存成图片2.需要的主要模块jieba中文分词wordcloud构建词云3.模块原理wordcloud的实现原理文本预处理词频统计将高频词以图片形式进行彩色渲染jieba的实现原理进行中文分词（有多种模式）4.英文词云英文分词和构建词云只需要wordcloud模块Python学习资料或者需要代码、视频加
java多线程封装_【原创】中文分词系统 ICTCLAS2015 的JAVA封装和多线程执行（附代码）... 洪文律所 java多线程封装
本文针对的问题是ICTCLAS2015的多线程分词，为了实现多线程做了简单的JAVA封装。如果有需要可以自行进一步封装其它接口。首先ICTCLAS2015的传送门(http://ictclas.nlpir.org/)，其对中文分词做的比较透彻，而且有一定的可调式性。但是应用到实际开发中的话，多线程操作是必须的，因此有了本文的初衷。可能有的小伙伴不太清楚ICTCLASS是干嘛的，下面是一段介绍：NL
华为OD机试真题C卷-篇2 laufing 算法与数据结构(python)华为od 算法刷题 python
文章目录启动多任务排序有效子字符串最长子字符串的长度最长子字符串的长度（二）两个字符串间的最短路径问题生成Huffman树可以处理的最大任务中文分词模拟器手机App防沉迷系统根据IP查找城市文件缓存系统寻找最优的路测线路Wonderland游乐园项目排期/最少交付时间灰度图存储精准核酸检测运输时间启动多任务排序A任务依赖B任务，执行时需要先执行B任务，完成后才可以执行A任务；若一个任务不依赖其他任
elasticsearch使用ik中文分词器 huan1993
一、背景es自带了一堆的分词器，比如standard、whitespace、language(比如english)等分词器，但是都对中文分词的效果不太好，此处安装第三方分词器ik，来实现分词。二、安装ik分词器1、从github上找到和本次es版本匹配上的分词器#下载地址https://github.com/medcl/elasticsearch-analysis-ik/releases2、使用e
TF-IDF入门与实例 lawenliu
我们对文档分析的时候，通常需要提取关键词，中文分词可以使用jieba分词，英文通过空格和特殊字符分割即可。那么分割之后是不是出现频率越高这些词就能越好代表这篇文章描述的内容呢？答案是否定的，比如英文中常见的词a、an等，中文中常见的“的”、“你”等等。有一些词可以通过过滤stopWord词表去掉，但是对于领域文档分析就会遇到更复杂的情况，比如需要把100份文档分到不同的领域，提取每个领域的关键词；
【2023华为OD-C卷-第三题-中文分词模拟器】100%通过率（JavaScript&Java&Python&C++）塔子哥学算法华为od c语言中文分词
本题已有网友报告代码100%通过率OJ&答疑服务购买任意专栏，即可添加博主vx:utheyi，获取答疑/辅导服务OJ权限获取可以在购买专栏后访问网站：首页-CodeFun2000题目描述给定一个连续不包含空格的字符串，该字符串仅包含英文小写字母及英文标点符号(逗号、分号、句号)，同时给定词库，对该字符串进行精确分词。说明：精确分词：字符串分词后，不会出现重叠。即"ilovechina",不同词库可
自然语言处理从零到入门分词 BlackStar_L 自然语言处理与文本检索自然语言处理人工智能
自然语言处理从零到入门分词–Tokenization一、什么是分词？二、为什么要分词？三、中英文分词的3个典型区别四、中文分词的3大难点五、3种典型的分词方法六、分词工具总结参考分词是NLP的基础任务，将句子，段落分解为字词单位，方便后续的处理的分析。本文将介绍分词的原因，中英文分词的3个区别，中文分词的3大难点，分词的3种典型方法。最后将介绍中文分词和英文分词常用的工具。一、什么是分词？分词是自
NLP入门系列—分词 Tokenization 不二人生自然语言处理自然语言处理人工智能
NLP入门系列—分词Tokenization分词是NLP的基础任务，将句子，段落分解为字词单位，方便后续的处理的分析。本文将介绍分词的原因，中英文分词的3个区别，中文分词的3大难点，分词的3种典型方法。最后将介绍中文分词和英文分词常用的工具。分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。词是一个比较合适的粒度词是表达完整含义的最小单位。字的粒度太小，无
07、全文检索 -- Solr -- Solr 全文检索之为索引库添加中文分词器 _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr 中文分词
目录Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词器的jar包2、修改managed-schema配置文件什么是fieldType3、添加停用词文档4、重启solr5、添加【*_cn】动态字段，并为该字段设置中文分词器6、演示分词器的区别演示text_cjk这个简单的分词器演示text_cn这个中文分词器Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词
Python 中 jieba 库 SteveKenny python python 开发语言后端
文章目录jieba库一、简介1、是什么2、安装二、基本使用1、三种模式2、使用语法2.1对词组的基本操作2.2关键字提取2.3词性标注2.4返回词语在原文的起止位置jieba库一、简介1、是什么（1）jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语jieba是优秀的中文分词第三方库，需要额外安装jieba库提供三种分词模式，最简单只需掌握一个函数（2）jieba分词的原理jie
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

中文分词中的trie检索树实现

你可能感兴趣的:(中文分词)