梅逊雪

最近关注学习文本分类——天书般的ICTCLAS分词系统代码（一）

中科院的ICTCLAS 分词系统

ICTCLAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，该版的Free版开放了源代码，为初学者提供了宝贵的学习材料。我们可以在“http://sewm.pku.edu.cn/QA/”找到FreeICTCLASLinux.tar的C++代码。

可是目前该版本的ICTCLAS并没有提供完善的文档，所以阅读起来有一定的难度，所幸网上可以找到一些对ICTCLAS进行代码分析的文章，对理解分词系统的内部运行机制提供了很大的帮助。这些文章包括：

1）http://blog.csdn.net/group/ictclas4j/；《ICTCLAS分词系统研究（一）～（六）》作者：sinboy。

2）http://qxred.yculblog.com/post.1204714.html；《ICTCLAS 中科院分词系统代码注释中文分词词性标注》作者：风暴红QxRed 。

按照上面这些文章的思路去读ICTCLAS的代码，可以比较容易的理顺思路。然而在我阅读代码的过程中，越来越对ICTCLAS天书般的代码感到厌烦。我不得不佩服中科院计算所的人思维缜密，头脑清晰，能写出滴水不漏而又让那些“头脑简单”的人百思不得其解的代码。将一件本来很简单的事情做得无比复杂...

ICTCLAS中有一个名为CDynamicArray的类，存放在DynamicArray.cpp与DynamicArray.h两个文件中，这个DynamicArray是干什么用的？经过一番研究后终于明白是一个经过排序的链表。为了表达的更明白些，我们不妨看下面这张图：

（图一）

上面这张图是一个按照index值进行了排序的链表，当插入新结点时必须确保index值的有序性。DynamicArray类完成的功能基本上与上面这个链表差不多，只是排序规则不是index，而是row和col两个数据，如下图：

（图二）

大家可以看到，这个有序链表的排序规则是先按row排序，row相同的按照col排序。当然排序规则是可以改变的，如果先按col排，再按row排，则上面的链表必须表述成：

（图三）

在了解了这些内容的基础上，不妨让我们看看ICTCLAS中DynamicArray.cpp中的代码实现（这里我们只看GetElement方法的实现，其基本功能为给出row与col，然后将对应的元素取出来）。

Copy Code

DynamicArray.cpp

     ELEMENT_TYPE CDynamicArray::GetElement( 
    int nRow,  
    int nCol, PARRAY_CHAIN pStart,  
    
   PARRAY_CHAIN *pRet)  
    
 {  
    
   PARRAY_CHAIN pCur = pStart;  
    
    if (pStart == 0)  
    
     pCur = m_pHead;  
    
    if (pRet != 0)  
    
     *pRet = NULL;  
    
    if (nRow > ( 
    int)m_nRow || nCol > ( 
    int)m_nCol)  
    
    //Judge if the row and col is overflow  
    
    return INFINITE_VALUE;  
    
    if ( 
    m_bRowFirst)  
    
   {  
    
    while ( 
    pCur != NULL && (nRow !=  - 1 && (int)pCur->row < nRow || (nCol !=   
       - 1 && (int)pCur->row == nRow && (int)pCur->col < nCol)))  
    
     {  
    
    if (pRet != 0)  
    
         *pRet = pCur;  
    
       pCur = pCur->next;  
    
     }  
    
   }  
    
    else  
    
   {  
    
    while ( 
    pCur != NULL && (nCol !=  - 1 && (int)pCur->col < nCol || ((int)pCur 
       ->col == nCol && nRow !=  - 1 && (int)pCur->row < nRow)))  
    
     {  
    
    if (pRet != 0)  
    
         *pRet = pCur;  
    
       pCur = pCur->next;  
    
     }  
    
   }  
    
    if ( 
    pCur != NULL && ((int)pCur->row == nRow || nRow ==  - 1) && ((int)pCur 
     ->col == nCol || nCol ==  - 1))  
    
    //Find the same position  
    
   {  
    
    //Find it and return the value  
    
    if (pRet != 0)  
    
       *pRet = pCur;  
    
    return pCur-> 
    value;  
    
   }  
    
    return INFINITE_VALUE;  
    
 }

这里我先要说明的是程序中的m_bRowFirst变量，它表示是先按row大小排列还是先按col大小排列。如果m_bRowFirst为逻辑真值，那么链表就如上面图二所示，如果为假，则如图三所示。

除了这个外，看到上面长长的条件表达式，你一定会吓坏了吧！更让人吓坏的是调用这段程序的代码：

Copy Code

对GetElement方法的调用

 
 //来自NShortPath.cpp中ShortPath方法  
    
 eWeight = m_apCost->GetElement( -1, nCurNode, 0, &pEdgeList);  
    
    //来自Segment.cpp中BiGraphGenerate方法  
    
 aWord.GetElement(pCur->col, -1, pCur, &pNextWords); 
    //Get next words which begin with pCur->col

先分析第一个调用

第一个调用给GetElement方法的nRow传递了-1，他想干什么呢？

假设这时候变量m_bRowFirst为true，并且传递过去的nCol!=-1，那么while (pCur != NULL && (nRow != - 1 && (int)pCur->row < nRow || (nCol != -1 && (int)pCur->row == nRow && (int)pCur->col < nCol))) 等价于while (pCur != NULL && ( (int)pCur->row == -1 && (int)pCur->col < nCol))) ，注意红色部分在程序运行时永远为false（因为根本就不存在row为-1的结点），因此，上面的表达式等价于while(false)！这对于该段程序没有任何意义！

因此我们可以得到这样一个结论：如果GetElement方法的nRow参数取-1，当且仅当m_bRowFirst为false时才有意义。这时候，代码中第二个while得到执行，让我们分析一下：

while (pCur != NULL && (nCol != - 1 && (int)pCur->col < nCol || ((int)pCur->col == nCol && nRow != - 1 && (int)pCur->row < nRow))) 在nRow为-1时等价于while (pCur != NULL && ((int)pCur->col < nCol ) ，这就容易解释的多了：在如图三所示的链表中查找col=nCol 的第一个结点。

My God!

再分析第二个调用

上面的第二个调用就更让人摸不着头脑了：将pCur->col传递给GetElement的nRow参数，并将-1传递给nCol参数，这想干什么呢？要想分析清楚这个问题，没有个把钟头恐怕不行（再次佩服这些中科院的牛人们）。

按照“分析第一个调用”中的结论可知，如果GetElement方法的nCol参数取-1，当且仅当m_bRowFirst为true时才有意义。因此链表排序一定是先按照行排（如图二），此时对DynamicArray的GetElement方法的调用可以简化成：

Copy Code

对方法调用进行剥离和简化

 
    //来自Segment.cpp中BiGraphGenerate方法   
    
 aWord.GetElement(pCur->col, -1, pCur, &pNextWords);  
    
    //======================================================================  
    
 ELEMENT_TYPE CDynamicArray::GetElement( 
    int nRow,  
    int nCol, PARRAY_CHAIN pStart, PARRAY_CHAIN *pRet)   
    
    // 经过调用后，上面的形参对应的值分别是：nRow：pStart->col, nCol：-1, pStart, &pNextWords  
    
    // 注意，为了和下面代码中的pCur以示区分，这里用了pStart这个变量名。  
    
 {   
    
   ......  
    
    while (pCur != NULL && ( 
    (int)pCur->row < pStart->col))   
    
   {   
    
    if (pRet != 0)   
    
       *pRet = pCur;   
    
     pCur = pCur->next;   
    
   }   
    
    if (pCur != NULL && ( 
    (int)pCur->row ==  
    pStart->col)   
    
    //Find the same position   
    
   {   
    
    //Find it and return the value   
    
    if (pRet != 0)   
    
       *pRet = pCur;   
    
    return pCur-> 
    value;   
    
   }   
    
    return INFINITE_VALUE;   
    
 }

此时的意义就比较明显了，其实就是找pCur->row == pStart->col的那个结点。

可有人会问，干吗把row和col扯到一起呢？这又是一个非常复杂的问题。具体内容可以参考sinboy的《ICTCLAS分词系统研究（四）--初次切分》一文。这里简单解释如下：

如图四，这是row优先排列的一个链表：

图四进行初步分词后的链表结构（TagArrayChain）实例

用二维表来表示图四中的链表结构如下图五所示：

图五 TagArrayChain实例的二维表表示形式

然后找出相邻两个词的平滑值。例如“他@说”、“的@确”、“的@确实”、“的确@实”、“的确@实在”等。如果仔细观察的话，可以注意到以下特点：例如“的确”这个词，它的col = 5，需要和它计算平滑值的有两个，分别是“实”和“实在”，你会发现这两个词的row = 5。同样道理，“确”的col = 5，它也需要和“实”与“实在”（row = 5）分别计算平滑值。

其实，这就是为什么上面分析的找pCur->row == pStart->col的那个结点的原因了。最终得到的平滑值图可以表述成图六：

图六进行初次分词后生成的二叉图表的二维图表表示形式

到此为止才明白代码作者的真正用意：

Copy Code

将该调用放到上下文中再次查看

 
    //========= 来自Segment.cpp中BiGraphGenerate方法 ===========  
    
 ......　  
    
    //取得和当前结点列值(col)相同的下个结点  
    
    aWord.GetElement(pCur->col, -1, pCur, &pNextWords);  
    
    while( 
    pNextWords&&pNextWords->row==pCur->col) 
    //Next words  
    
 {   
    
    //前后两个词用@分隔符连接起来  
    
   strcpy(sTwoWords,pCur->sWord);  
    
   strcat(sTwoWords,WORD_SEGMENTER);  
    
   strcat(sTwoWords,pNextWords->sWord);  
    
   ......  
    
 }

小结

想不到短短一个GetElement方法中竟然综合考虑了1）row优先排序的链表；2）col优先排序的链表；3）当nRow为-1时的行为（只有m_bRowFirst为false时才能这么做，代码中没有指，所以非常容易出错！）；4）当nCol为-1时的行为；5）当nRow与nCol都不为-1时的行为。

这也难怪我们会看到诸如while (pCur != NULL && (nRow != - 1 && (int)pCur->row < nRow || (nCol != -1 && (int)pCur->row == nRow && (int)pCur->col < nCol))) 这样的逻辑表达式了！我们也不得不佩服代码书写者复杂的逻辑思维能力（离散数学的谓词逻辑一定学得超级好）和给代码阅读者制造障碍的能力！类似代码在ICTCLAS中比比皆是，看来我只能恨自己脑筋太简单了！

你可能感兴趣的:(文本分类)

FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
欺诈文本分类检测（十四）：GPTQ量化模型沉下心来学鲁班微调分类人工智能语言模型微调
1.引言量化的本质：通过将模型参数从高精度（例如32位）降低到低精度（例如8位），来缩小模型体积。本文将采用一种训练后量化方法GPTQ，对前文已经训练并合并过的模型文件进行量化，通过比较模型量化前后的评测指标，来测试量化对模型性能的影响。GPTQ的核心思想在于：将所有权重压缩到8位或4位量化中，通过最小化与原始权重的均方误差来实现。在推理过程中，它将动态地将权重解量化为float16，以提高性能，
【自然语言处理】自然语言处理NLP概述及应用 @我们的天空人工智能技术 nlp 人工智能深度学习 python 机器学习自然语言处理 scikit-learn
自然语言处理（NaturalLanguageProcessing，简称NLP）是一门集计算机科学、人工智能以及语言学于一体的交叉学科，致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支，旨在缩小人与机器之间的交流障碍，使得机器能够更有效地识别并响应人类的自然语言指令或内容。自然语言处理NLP概述基本任务：文本分类：将文本划分为预定义的类别，如情感分析、主题分类等
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
NLP-预训练模型-中文：封神榜系列【姜子牙（通用大模型）、太乙（多模态）、二郎神（语言理解）、闻仲（语言生成）、燃灯（语言转换）、余元（领域）、...】 u013250861 LLM 自然语言处理人工智能深度学习
封神榜模型系列简介系列名称需求适用任务参数规模备注姜子牙通用通用大模型>70亿参数通用大模型“姜子牙”系列，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力太乙特定多模态8千万-10亿参数应用于跨模态场景，包括文本图像生成，蛋白质结构预测,语音-文本表示等
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能算法自然语言处理分类 nlp ai 人工智能 chatgpt
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机》代码实战总结自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机在文本分类的应用场景中，相比其他机器学习算法有更好的效果。下面介绍其原理，并用SparkMLlib机器
Hugging Face教程小牛笔记自然语言处理人工智能自然语言处理
HuggingFace教程1.引言在当今数字化时代，自然语言处理（NLP）在各个领域中扮演着重要角色。从文本分类、情感分析到机器翻译和对话系统，NLP技术的应用日益广泛。在NLP领域，HuggingFace是一个备受欢迎的开源工具库，提供了丰富的预训练模型和强大的工具，帮助开发者快速构建和部署NLP应用。2.HuggingFace简介HuggingFace是一个专注于NLP的开源组织，致力于提供易
RNN及其变体豫儿啊~ lstm 人工智能 rnn
RNN及其变体RNN模型定义循环神经网络:一般接受的一序列进行输入,输出也是一个序列作用和应用场景:RNN擅长处理连续语言文本,机器翻译,文本生成,文本分类,摘要生成RNN模型的分类根据输入与输出结构NVsN:输入和输出等长,应用场景:对联生成;词性标注;NERNVs1:输入N,输出为单值,应用场景:文本分类1VsN:输出是一个,输出为N,应用场景:图片文本生成NVsM:输入和输出不等长,应用场景
文字模型训练分析评论（算法实战）富士达幸运星算法人工智能机器学习
文字模型训练，尤其是在自然语言处理（NLP）领域，是构建能够理解、解释、生成人类语言系统的核心步骤。这类模型广泛应用于文本分类、情感分析、机器翻译、聊天机器人、摘要生成等多个方面。针对文字模型训练后的分析评论，可以从以下几个方面进行：1.性能评估准确率/错误率：评估模型在测试集上的准确率或错误率是最直接的方式，这能反映模型的基本性能。混淆矩阵：对于分类任务，混淆矩阵可以详细展示模型在各个类别上的表
快速使用transformers的pipeline实现各种深度学习任务 E寻数据 huggingface 计算机视觉 nlp 深度学习人工智能 python pipeline transformers
目录引言安装情感分析文本生成文本摘要图片分类实例分割目标检测音频分类自动语音识别视觉问答文档问题回答图文描述引言在这篇中文博客中，我们将深入探讨使用transformers库中的pipeline()函数，它为预训练模型提供了一个简单且快速的推理方法。pipeline()函数支持多种任务，包括文本分类、文本生成、摘要生成、图像分类、图像分割、对象检测、音频分类、自动语音识别、视觉问题回答、文档问题回
AIGC自动行为采集的文本分类任务——结和上下文情景自动编码（含数据清洗以及提示词和代码）——批量处理东方-教育技术博主学术学习相关分类数据挖掘人工智能
文章目录数据清洗二次清洗数据上下文情景顺序应该先处算情境批量操作excel数据清洗遍历python脚本所在目录所有excel文件读取所有文件的‘’标注‘’列，遍历读取这一列每行数据，删除所有数据中不包含：1学生回答问题2出声思考3学生举手/提问/建议4学生获得成就时刻5学生与家长互动6家长辅导学生7家长鼓励学生8家长批评/惩罚学生这八条中的数据，如果遇到学生回答问题R1，或者学生回答问题R2学生回
【机器学习】机器学习与大模型在人工智能领域的融合应用与性能优化新探索 E绵绵 Everything 人工智能机器学习大模型 python AIGC 应用科技
文章目录引言机器学习与大模型的基本概念机器学习概述监督学习无监督学习强化学习大模型概述GPT-3BERTResNetTransformer机器学习与大模型的融合应用自然语言处理文本生成文本分类机器翻译图像识别自动驾驶医学影像分析语音识别智能助手语音转文字大模型性能优化的新探索模型压缩权重剪枝量化知识蒸馏分布式训练数据并行模型并行异步训练高效推理模型裁剪缓存机制专用硬件未来展望跨领域应用智能化系统人
欺诈文本分类微调（六）：Lora单卡训练沉下心来学鲁班微调分类人工智能机器学习语言模型微调
1.引言前面欺诈文本分类微调（四）：构造训练/测试数据集已经构造出了数据集，更之前的欺诈文本分类微调（一）：基座模型选型选好了基座模型，这篇文章将基于构造出的数据集和选定的模型进行欺诈文本分类的微调训练。关于微调方法，我们将使用比较普遍的Lora：在模型中注入低秩矩阵的方式。关于训练器，使用transformers库中提供的Trainer类。2.数据准备2.1加载数据导入要使用的基础包。impor
【ShuQiHere】“从 One-Hot 到 GPT：窥探词表示技术的演变” ShuQiHere gpt 神经网络机器学习人工智能
【ShuQiHere】在自然语言处理（NLP）领域，如何让机器理解人类语言一直是一个核心问题。而词表示（WordRepresentation）正是解决这个问题的基础技术。通过词表示，我们可以将文本中的词语转化为计算机能够理解和处理的数字向量，这为各种NLP任务，如文本分类、情感分析、机器翻译等，提供了强大的支持。从最早的One-Hot编码，到如今广泛应用的上下文相关词嵌入技术，词表示技术已经走过了
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
《倒排索引》刚满十八工地搬砖数据结构
1、了解倒排索引的基本概念1.1、倒排索引是什么倒排索引是一种用于全文搜索的数据结构，它将文档中的每个单词映射到包含该单词的所有文档的列表中，然后用该列表替换单词。因此，倒排索引在文本搜索和信息检索中广泛应用，如搜索引擎、网站搜索、文本分类等场景中。具体来说，一个倒排索引包含一个词语词典和每个词语对应的倒排列表。倒排列表中记录了包含该词语的所有文档的编号、词频等信息。这让我们能够在O(1)的时间内
NLP技术小天才dhsb 网络其他
自然语言处理（NLP）技术可以应用在多个领域，例如机器翻译、情感分析、文本分类等。以下是几个例子：1.机器翻译：NLP技术可以将一种语言的文本自动翻译成另一种语言。例如，谷歌翻译就是应用了NLP技术，它可以将英语的文本翻译成其他语言，如法语、西班牙语等。2.情感分析：NLP技术可以分析文本中的情感倾向。例如，通过分析社交媒体上用户的评论和推文，可以判断用户对某个产品或事件的情感态度是正面的、负面的
大语言模型可信性浅谈 MarkHD 语言模型人工智能自然语言处理
大语言模型可信性的研究摘要：随着人工智能技术的快速发展，大语言模型在自然语言处理领域的应用越来越广泛。然而，大语言模型的可信性一直是人们关注的焦点。本文将从多个维度探讨大语言模型的可信性问题，包括模型性能、数据质量、隐私保护等方面，并提出相应的解决方案。一、引言大语言模型是指能够处理大规模文本数据的深度学习模型，如BERT、GPT等。这些模型在自然语言处理任务中取得了显著的成果，包括文本分类、情感
基于ERNIR3.0文本分类的开发实践 wangqiaowq 人工智能
参考：基于ERNIR3.0文本分类：(KUAKE-QIC)意图识别多分类(单标签)-飞桨AIStudio星河社区(baidu.com)https://zhuanlan.zhihu.com/p/574666812?utm_id=0遇到的问题：如下采用paddleNLP下文本分类实例进行分类训练后发现生成的模型分类不准。打算自己开发脚本进行分类计算再进行服务化部署。基于ERNIR3.0文本分类任务模型
【探索AI】四：AI（人工智能）自然语言处理（NLP）美少女战士1@ 学习笔记 AI 人工智能自然语言处理
自然语言处理（NLP）的概念自然语言处理（NaturalLanguageProcessing，NLP）是一门交叉学科，涉及人工智能、计算机科学和语言学等领域，旨在让计算机能够理解、分析、生成和处理人类语言。NLP技术致力于使计算机能够与人类以自然语言进行交流，从而实现更加智能、便捷的人机交互。在自然语言处理中，常见的任务包括但不限于：文本分类：将文本按照预定义的类别进行分类，如垃圾邮件分类、新闻分
文本分类算法能够应用于哪些领域？真实项目场景介绍思通数科x 分类数据挖掘人工智能多分类
我们有幸参与了多个涉及分类算法的项目，这些项目覆盖了多个行业，展示了分类算法的广泛应用和巨大潜力。下面我为大家介绍几个实际的真实项目案例：1.某城市档案馆我们为一线某城市的档案馆开发了一个智能分类系统。这个系统能够自动识别和分类158种不同类型的公文，极大地提高了档案管理的效率。通过机器学习算法，我们训练了一个模型，它能够理解公文的内容和格式，从而实现快速且准确的分类。这不仅减少了人工分类的时间，
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
21丨朴素贝叶斯分类（下）：如何对文档进行分类？张九日zx
朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。sklearn机器学习包sklearn的全称叫Scikit-learn，它给我们提供了3个朴素贝叶斯分类算法，分别是高斯朴素贝叶斯（GaussianNB）、多项式朴素贝叶斯（MultinomialNB）和伯努利朴素贝叶斯（BernoulliNB）。自然界的现象比较适合用高斯朴素贝叶斯来处理，而文本分类是使用多项式朴素贝叶斯或者伯努利朴
Task6 基于深度学习的文本分类3 listentorain_W
基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"AttentionisAllYouNeed"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。i
8、python多项式贝叶斯文本分类（完整） UP Lee 数据挖掘实战多项式贝叶斯文章分类
1、贝叶斯定理（BayesTheorem）朴素贝叶斯分类（NaiveBayesClassifier）贝叶斯分类算法，是统计学的一种分类方法，它是利用贝叶斯定理的概率统计知识，对离散型的数据进行分类的算法2、贝叶斯算法的类型sklearn包naive_bayes模块GaussianNB高斯贝叶斯BernoulliNB伯努利贝叶斯MultionmialNB多项式贝叶斯（需要知道具体每个特征的数值大小）
zero shot classification提取主题词狗庄欺人太甚 NLP 机器学习 python 算法
基于NLI的零镜头文本分类。zeroshotclassification提出了一种使用预训练的NLI模型作为现成的零样本序列分类器的方法。该方法的工作原理是将要分类的序列设置为NLI前提，并从每个候选标签构建一个假设。例如，如果我们想评估一个序列是否属于“政治”类，我们可以构建一个“本文是关于政治”的假设。然后将蕴涵和矛盾的概率转换为标签概率。这种方法在许多情况下都非常有效，尤其是与BART和Ro
Task5 基于深度学习的文本分类2 listentorain_W
Task5基于深度学习的文本分类2在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法Part3词向量本节通过word2vec学习
使用word2vec+tensorflow自然语言处理NLP 取名真难. 机器学习自然语言处理 word2vec tensorflow 机器学习深度学习神经网络
目录介绍：搭建上下文或预测目标词来学习词向量建模1：建模2：预测：介绍：Word2Vec是一种用于将文本转换为向量表示的技术。它是由谷歌团队于2013年提出的一种神经网络模型。Word2Vec可以将单词表示为高维空间中的向量，使得具有相似含义的单词在向量空间中距离较近。这种向量表示可以用于各种自然语言处理任务，如语义相似度计算、文本分类和命名实体识别等。Word2Vec的核心思想是通过预测上下文或
ERNIE实现酒店情感分析（文本分类） OverlordDuke 深度学习 NLP 分类数据挖掘人工智能 NLP
ERNIE实现酒店情感分析（文本分类）引言在自然语言处理（NLP）领域，文本分类是一项重要的任务，它能够帮助我们理解和分析大量的文本数据。随着深度学习技术的发展，预训练模型成为了处理文本分类任务的重要工具。本项目将介绍如何利用PaddleHub和预训练模型ERNIE来完成酒店情感分析，即对酒店评论进行积极或消极的分类。项目背景与意义在过去，NLP文本处理主要依赖于序列模型，如循环神经网络（RNN）
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他