Dacc123

文本分类学习（五）机器学习SVM的前奏-特征提取（卡方检验续集）

前言：

上一篇比较详细的介绍了卡方检验和卡方分布。这篇我们就实际操刀，找到一些训练集，正所谓纸上得来终觉浅，绝知此事要躬行。然而我在躬行的时候，发现了卡方检验对于文本分类来说应该把公式再变形一般，那样就完美了。

文本分类学习（一）开篇
文本分类学习（二）文本表示
文本分类学习（三）特征权重（TF/IDF）和特征提取　　
文本分类学习（四）特征选择之卡方检验
文本分类学习（五）机器学习SVM的前奏-特征提取（卡方检验续集）
一，回顾卡方检验

1.公式一：

先回顾一下卡方检验：

卡方检验：事先做一个假设，计算由有假设得来的理论值于实际观察值之间的偏差来推断这个假设是否成立，公式：

2.四表格的卡方检验公式:

卡方检验对于文本分类：每个词对于每个类别，使用四表格的形式，计算该词对于该类是否有较大的影响，公式：

二，训练集的准备

我选择了复旦语料库中的历史篇：469篇

每篇的格式大多如下：

历史类文档
自己爬了博客园的博客：420篇

选择一篇贴出来：

计算机类博客
这里就要抛出一个问题来：机器学习：你到底需要多少训练数据，尤其是SVM？

我这里训练集加起来才889篇，可以明确的是这些训练集是肯定不够的，理论上来说训练集应该越多越好，但是其分类想过应该是一个越来越平缓的曲线，这个貌似应该研究起来也是一个不少篇幅的内容。

三，开始特征提取吧！

接下来就开始机器学习第一步也是最重要的一步，也是最麻烦的一步吧，事实上自己要做的工作就是这一步。毕竟后面的训练只要用前辈们已经不断完善的分类算法和工具了，我选择的是SVM算法和libsvm工具包。

再声明一下，我是利用卡方检验对需要进行二分类的文本进行特征选择，已达到降维的目的，最终要得到的是能够代表每个类别的特征集合，和一个总的特征词典。当然在这个工程中，我们也会看到每个词对于一个文本重要性的规律。

1.分词工具

第一步：选择分词工具对训练集进行分词

我选择的分词工具是JIEba分词，而我使用的语言是C# ，关于.net core版本的JIEba分词可以在这篇博文里面找到：

http://www.cnblogs.com/dacc123/p/8431369.html

利用JIEba分词工具，我们才能进行后面的计算词频，词的文档频率，词的四表格值，词的卡方值χ2 。这里还是把自己的代码贴出来吧，如果有需要的话我会整理在GitHub上。

2.计算词频

第二步：计算词频

相信大家都会写，我把自己代码贴出来以供参考，代码中多用了Dictionary 数据结构，对了分词之前，咱们应该有一份比较全的停用词表。插一句：对于文本分类来说停用词越多越好，对于搜索引擎来说就不是这样了。

1800多个停用词

停用词表
计算词频代码：

   public void ReadText()
    {
        rd = File.OpenText("./stopwords.txt");
        string s = "";
        while ((s = rd.ReadLine()) != null)
        {
            if (s == null) continue;
            if (!stopwords.ContainsKey(s))
                stopwords.Add(s, 1);
        }
        Console.WriteLine("*******读取停用词完毕");
        rd.Close();

    }

    //计算词频，url1地址是放入训练集的文件夹，url2地址是存放计算词频结果的文件
    public void WriteText(string url1, string url2)
    {

        DirectoryInfo folder = new DirectoryInfo(url1);
        foreach (FileInfo file in folder.GetFiles("*.txt"))
        {

            rd = File.OpenText(file.FullName);
            string s = "";
            System.Console.WriteLine("**************开始读取数据...");
            while ((s = rd.ReadLine()) != null)
            {
                var segment = segmenter.Cut(s, false, false);

                foreach (var x in segment)
                {
                    if (stopwords.ContainsKey(x)) continue;
                    if (!keys.ContainsKey(x))
                        keys.Add(x, 1);
                    else
                        keys[x]++;
                }

            }
        }
        System.Console.WriteLine("**************读取完毕，计算词频并插入...");
        wt = new StreamWriter(url2, true);
        //wt = File.AppendText(url2);
        var dicSort = from objDic in keys orderby objDic.Value descending select objDic;
        foreach (KeyValuePair kvp in dicSort)
        {
            wt.WriteLine(kvp.Key + " " + kvp.Value.ToString());

        }
        System.Console.WriteLine("**************插入完毕...");
        wt.Flush();
        rd.Close();
        wt.Close();

    }

经过一顿操作：

历史类：　　　　　　　　　　　　　　　　　　　　　　　　　　　　计算机博客类：

选择词频排名前30的词，来看看，排名靠前的词乍一看好像貌似是那么回事，这也是有时候你只用词频这一个属性来分类文本，发现效果也不是那么差。仔细看一下：

历史类：“标”，“题”，“年”…等等，计算机博客类：“中”，“时”，等等这些词总是那么的刺眼，我们需要把这些冒充上来的词给去掉。

忘了说下，计算机博客类的词的个数是：21503个；历史类的词的个数是：68912个，由于自己找的训练集不是那么好所以两种类的词差别有点大。。

词的个数这么多，如果用词频排序的词表来当做特征集，是不是效果不能到达最好，而且维度太大了。

3.文档频率DF

前面提到过一个名词：文档频率DF ，也就是一个词在多少个文档中出现过，对于那些文档频率十分低的词，我们叫做生僻词，这些词有可能词频很高，比如一个人写博客：“我是大牛，我是大牛，我是大牛…”循环了几千次，那么“大牛”这个词就很靠前了，然而他只出现过在一篇博客里，所以我们可以把这些生僻词去掉。我也统计了两个类别中的生僻词，发现一大半都是DF为1，2的词。这里也就不贴代码和统计结果了，因为我们不需要取出文档频率低的词，为什么呢？因为有卡方检验啊，这个十分强大的机器，是肯定会帮我们过滤掉DF极低的词，所以咱们直奔卡方检验，看看是不是可以验证自己的猜想。（而统计DF的值恰恰帮助了我们计算卡方检验）

4.卡方检验一

根据上一篇博客中的公式，对于每个词，我们需要计算四个值，A,B,C,D。

再解释一下，以“大牛”和计算机博客类为例子：A 包含“大牛”属于计算机博客的文档个数，B 包含“大牛”不属于计算机博客的文档个数，C 不包含“大牛”属于计算机博客类的文档个数，D 不包含“大牛”不属于计算机的文档个数。

看起来很繁琐，其实只要有了上一步统计的DF表，那就很容易了。以计算机博客类为例子：

BlogDF 表示计算机博客类的词的文档频率表，HistoryDF表示历史类的词的文档频率表

那么A的值自然就是BlogDF的值

B的值：

forearch BlogDF

  if(HistoryDF[x]!=0)

B[x] = HistoryDF[x];

 else

      B[x] = 0;

C 和D 的值自然就是：

foreach C,D

   C[x] = 计算机总文档数-A[x]

   D[x] = 计算机总文档数-B[x]

代码如下：比较简陋没有收拾

计算卡方检验
于是兴高采烈的看看我们的强大的卡方检验得到的值，以计算机类：为了做对比，左边是词频排名，右边的是卡方检验排名

顿时傻眼了，为什么卡方检验之后，词的排名变成这样了？“历史”，“中国”，“发展”，貌似是代表的历史了，难道自己代码写错了？仔细排查发现代码并没有写错，这些词也确实在计算机博客类别的文档里出现过。可是为什么这些词的排名如此之高？

查找这些的A,B,C,D值，以“标”为例

属于计算机类博客	不属于计算机类博客（属于历史类）

包含“标” A：3 B：443
不包含“标” C：417 D：26

根据公式，计算出来的值确实是780多，而标的词频只有：3！！。翻看历史类别的卡方值也是780多，这个“标”这么全能吗？（实际上两个类别的公共词的卡方值都是一样的，观察公式和ABCD的值就可以发现了）

我们再回顾一开始的卡方检验：我们假设某个词对于文档是不是某个类别是没有影响的，而不是某个词是不是能代表某个类别，那么“标”这个词虽然对计算机博客类几乎没有一点代表性，但是你看看之前的词频表，“标”在历史类中的词频排名非常靠前。到这里就应该清楚了“标”这个词，卡方检验认为“标”这个词对历史类别的影响很大，当一个文档出现“标”那么可以很大一部分确定他是历史类别，不是计算机博客类别，所以“标”对于文档不是计算机类别还是有很大影响力的，自然排名靠前。这里就有一个疑问了，为什么“标”这种词可以很好的代表历史？这个后面再提，这也是前面说过的卡方检验的低词频性缺陷。

5.卡方检验二

所以眼前这个酷似历史的卡方检验排名表，是否可以作为计算机博客类的特征集合呢？答案是肯定的，这些排名靠前的词对于判断一个文档是否属于计算机博客类别相当有说服力。但是这样的排名表，我看着真的不是很喜欢。

于是我就做了点小动作。我们回顾一下卡方检验公式推导过程，

为了防止正负相互抵消，所以我们采用了平方和。然后在二分类问题中，这个正负其实是很有意义的，不应该就这么被和谐掉。我们看看“标”的四格表

属于计算机类博客	不属于计算机类博客（属于历史类）

包含“标” A：3 B：443
不包含“标” C：417 D：26

A和D的值很小，B和C的值很大，这就告诉了我们一个信息含有“标”很大可能是历史类，很小可能是计算机类，在计算过程中：

以计算A的观察值和理论值的偏差为例（约等于）：

实际上这个偏差应该是负的，3-210应该是负数，我们使用平方和才变成为正的，所以我们不使用平方和而是使用（E-A）*|(E-A)|

偏差为负表示啥呢，表示这个词能够否定文本属于该类文档（语气重了一点），为正表示这个词能够肯定文本属于该类文档。

属于计算机类博客	不属于计算机类博客（属于历史类）

包含“标” A：3 EA：210 B：443 EB:235
不包含“标” C：417 EC : 209 D：26 ED：233

推广到四个值，发现实际上B的偏差值是正的 443-235是正数嘛，实际上对于B我们应该取负数，同理C应该去负数。对于B,C在计算结果之后加上一个负数

这样算出来的标就是-780多。为什么呢？因为B是包含“标”属于历史类，对于计算机类说是反例，同理C也是，所以要取反，正变负，负变正。

这样我们可以想象，如果用符号表示卡方值的大小，那么卡方检验得到的值应该是类似于正态分布：

越靠近0的词越没有用，离0越远的词我们就越关注。那么这个具体的阀值是什么？还记得在卡方分布中说过的那个拒绝域吗？

3.84，对就是他了。你别看上面的图+3.84 和-3.84之间距离很短，但是这么短的距离中包含的词可多着呢，我的数据集中，大概三分之二的词都集中在-3.84到+3.84之间

于是在这个有符号的卡方检验指导下，我们变更公式！（对于四格表而言哦，也就是对于二分类而言哦）

根据此公式，我们修改代码

//计算观察值A的偏差符号为+
double EA = (double)(keysA[x.Key]+keysB[x.Key])*(double)(keysA[x.Key]+keysC[x.Key])/(double)(category1+category2);
double a = (double)(keysA[x.Key]-EA)*System.Math.Abs((double)(keysA[x.Key]-EA))/EA;

            //计算观察值B的偏差 符号为-
            double EB = (double)(keysA[x.Key]+keysB[x.Key])*(double)(keysB[x.Key]+keysD[x.Key])/(double)(category1+category2);
            double b = -1*(double)(keysB[x.Key]-EB)*System.Math.Abs((double)(keysB[x.Key]-EB))/EB;
           

            //计算观察值C的偏差 符号为-
            double EC = (double)(keysC[x.Key]+keysD[x.Key])*(double)(keysA[x.Key]+keysC[x.Key])/(double)(category1+category2);
            double c = -1*(double)(keysC[x.Key]-EC)*System.Math.Abs((double)(keysC[x.Key]-EC))/EC;
            

            //计算观察值D的偏差 符号为+
            double ED = (double)(keysC[x.Key]+keysD[x.Key])*(double)(keysB[x.Key]+keysD[x.Key])/(double)(category1+category2);
            double d = (double)(keysD[x.Key]-ED)*System.Math.Abs((double)(keysD[x.Key]-ED))/ED;
           

            result.Add(x.Key,a+b+c+d);

得到一个新的卡方检验表，以计算机类别，同样和词频作对比

乍一看，卡方检验的效果确实不错，仔细一看，嗯还是效果很好。哈哈哈。“中”这个词终于消失了。果然名不虚传，卡方检验确实是一个好东西

6.卡方检验的低词频性

再看看历史类的：

哎呀，这个“标”，“期” …等等，真是差强人意。看看之前的文本范例，我们就明白了

【文献号】1-1
【原文出处】历史研究
【原刊地名】京
【原刊期号】199602
【原刊页号】5-25
【分类号】K1
【分类名】历史学
【作者】林甘泉
【复印期号】199607
【标题】二十世纪中国历史学回顾二十世纪的中国历史学
【正文】
每一篇都有一个“标题”，“文献号”等等，因为卡方检验本来就是忽视了词频的，这次个每篇文章只出现一次的词，反而重要性排第一去了。所以我们就需要结合词频信息，对卡方检验再次来改造。具体应该怎么权衡卡方检验和词频的值呢？一时间我也没有想到好的方法。可以将卡方检验排名靠前的词，词频小于等于文档数，或者小于等于文档数2倍的词都去掉。

7.卡方检验的神奇

再来看看卡方检验排名表的后半部分，左边计算机博客类，右边历史类！

可以看到，这些历史类排名最后的是不是很像是计算机博客类的词语？这些距离0很远的词，是论证文章不属于历史类的词语，也验证了上面的正态分布的猜想。两个类别正好倒过来了，十分对称，十分完美。绝知此事要躬行，躬行之后的感觉果然不同呀。

其实具体实验的时候才发现，词汇这个组成文章的基本成分，在众多文本之间有太多规律，太多巧妙的地方值得去挖掘了，这也是自然语言处理的魅力了吧。

再次回到之前的文档频率DF,我们说文档频率DF低的不用处理，卡方检验会帮我处理，看看结果，这里截两张图：

第一个参数是卡方检验的值，第二个值是文档频率DF

果然这些DF十分低的词都被分配到了0周围，坚决的和0站在一起，坚决的要被淘汰掉。

四，结语

那么经过前面的步骤，的确得到了可以代表两个类的特征集合，将两个特征集合距离0的距离大于3.84的特征（就是词啦）取一个并集，那么就是一个特征词典了。我们可以想象，历史类和计算机博客类的文本向量如果映射在这个词典上，他们分布是不同的，而SVM正是解决中在高维空间（也就是向量维度很高），把两类向量进行分类，如果线性不可分，SVM会使用核函数，映射到更高的维度使其变成线性可分。具体的原理这里也不细究。可见在SVM之前，将文本变成向量的过程是一个非常重要的步骤。

FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
欺诈文本分类检测（十四）：GPTQ量化模型沉下心来学鲁班微调分类人工智能语言模型微调
1.引言量化的本质：通过将模型参数从高精度（例如32位）降低到低精度（例如8位），来缩小模型体积。本文将采用一种训练后量化方法GPTQ，对前文已经训练并合并过的模型文件进行量化，通过比较模型量化前后的评测指标，来测试量化对模型性能的影响。GPTQ的核心思想在于：将所有权重压缩到8位或4位量化中，通过最小化与原始权重的均方误差来实现。在推理过程中，它将动态地将权重解量化为float16，以提高性能，
【自然语言处理】自然语言处理NLP概述及应用 @我们的天空人工智能技术 nlp 人工智能深度学习 python 机器学习自然语言处理 scikit-learn
自然语言处理（NaturalLanguageProcessing，简称NLP）是一门集计算机科学、人工智能以及语言学于一体的交叉学科，致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支，旨在缩小人与机器之间的交流障碍，使得机器能够更有效地识别并响应人类的自然语言指令或内容。自然语言处理NLP概述基本任务：文本分类：将文本划分为预定义的类别，如情感分析、主题分类等
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
NLP-预训练模型-中文：封神榜系列【姜子牙（通用大模型）、太乙（多模态）、二郎神（语言理解）、闻仲（语言生成）、燃灯（语言转换）、余元（领域）、...】 u013250861 LLM 自然语言处理人工智能深度学习
封神榜模型系列简介系列名称需求适用任务参数规模备注姜子牙通用通用大模型>70亿参数通用大模型“姜子牙”系列，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力太乙特定多模态8千万-10亿参数应用于跨模态场景，包括文本图像生成，蛋白质结构预测,语音-文本表示等
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能算法自然语言处理分类 nlp ai 人工智能 chatgpt
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机》代码实战总结自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机在文本分类的应用场景中，相比其他机器学习算法有更好的效果。下面介绍其原理，并用SparkMLlib机器
Hugging Face教程小牛笔记自然语言处理人工智能自然语言处理
HuggingFace教程1.引言在当今数字化时代，自然语言处理（NLP）在各个领域中扮演着重要角色。从文本分类、情感分析到机器翻译和对话系统，NLP技术的应用日益广泛。在NLP领域，HuggingFace是一个备受欢迎的开源工具库，提供了丰富的预训练模型和强大的工具，帮助开发者快速构建和部署NLP应用。2.HuggingFace简介HuggingFace是一个专注于NLP的开源组织，致力于提供易
RNN及其变体豫儿啊~ lstm 人工智能 rnn
RNN及其变体RNN模型定义循环神经网络:一般接受的一序列进行输入,输出也是一个序列作用和应用场景:RNN擅长处理连续语言文本,机器翻译,文本生成,文本分类,摘要生成RNN模型的分类根据输入与输出结构NVsN:输入和输出等长,应用场景:对联生成;词性标注;NERNVs1:输入N,输出为单值,应用场景:文本分类1VsN:输出是一个,输出为N,应用场景:图片文本生成NVsM:输入和输出不等长,应用场景
文字模型训练分析评论（算法实战）富士达幸运星算法人工智能机器学习
文字模型训练，尤其是在自然语言处理（NLP）领域，是构建能够理解、解释、生成人类语言系统的核心步骤。这类模型广泛应用于文本分类、情感分析、机器翻译、聊天机器人、摘要生成等多个方面。针对文字模型训练后的分析评论，可以从以下几个方面进行：1.性能评估准确率/错误率：评估模型在测试集上的准确率或错误率是最直接的方式，这能反映模型的基本性能。混淆矩阵：对于分类任务，混淆矩阵可以详细展示模型在各个类别上的表
快速使用transformers的pipeline实现各种深度学习任务 E寻数据 huggingface 计算机视觉 nlp 深度学习人工智能 python pipeline transformers
目录引言安装情感分析文本生成文本摘要图片分类实例分割目标检测音频分类自动语音识别视觉问答文档问题回答图文描述引言在这篇中文博客中，我们将深入探讨使用transformers库中的pipeline()函数，它为预训练模型提供了一个简单且快速的推理方法。pipeline()函数支持多种任务，包括文本分类、文本生成、摘要生成、图像分类、图像分割、对象检测、音频分类、自动语音识别、视觉问题回答、文档问题回
AIGC自动行为采集的文本分类任务——结和上下文情景自动编码（含数据清洗以及提示词和代码）——批量处理东方-教育技术博主学术学习相关分类数据挖掘人工智能
文章目录数据清洗二次清洗数据上下文情景顺序应该先处算情境批量操作excel数据清洗遍历python脚本所在目录所有excel文件读取所有文件的‘’标注‘’列，遍历读取这一列每行数据，删除所有数据中不包含：1学生回答问题2出声思考3学生举手/提问/建议4学生获得成就时刻5学生与家长互动6家长辅导学生7家长鼓励学生8家长批评/惩罚学生这八条中的数据，如果遇到学生回答问题R1，或者学生回答问题R2学生回
【机器学习】机器学习与大模型在人工智能领域的融合应用与性能优化新探索 E绵绵 Everything 人工智能机器学习大模型 python AIGC 应用科技
文章目录引言机器学习与大模型的基本概念机器学习概述监督学习无监督学习强化学习大模型概述GPT-3BERTResNetTransformer机器学习与大模型的融合应用自然语言处理文本生成文本分类机器翻译图像识别自动驾驶医学影像分析语音识别智能助手语音转文字大模型性能优化的新探索模型压缩权重剪枝量化知识蒸馏分布式训练数据并行模型并行异步训练高效推理模型裁剪缓存机制专用硬件未来展望跨领域应用智能化系统人
欺诈文本分类微调（六）：Lora单卡训练沉下心来学鲁班微调分类人工智能机器学习语言模型微调
1.引言前面欺诈文本分类微调（四）：构造训练/测试数据集已经构造出了数据集，更之前的欺诈文本分类微调（一）：基座模型选型选好了基座模型，这篇文章将基于构造出的数据集和选定的模型进行欺诈文本分类的微调训练。关于微调方法，我们将使用比较普遍的Lora：在模型中注入低秩矩阵的方式。关于训练器，使用transformers库中提供的Trainer类。2.数据准备2.1加载数据导入要使用的基础包。impor
【ShuQiHere】“从 One-Hot 到 GPT：窥探词表示技术的演变” ShuQiHere gpt 神经网络机器学习人工智能
【ShuQiHere】在自然语言处理（NLP）领域，如何让机器理解人类语言一直是一个核心问题。而词表示（WordRepresentation）正是解决这个问题的基础技术。通过词表示，我们可以将文本中的词语转化为计算机能够理解和处理的数字向量，这为各种NLP任务，如文本分类、情感分析、机器翻译等，提供了强大的支持。从最早的One-Hot编码，到如今广泛应用的上下文相关词嵌入技术，词表示技术已经走过了
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
《倒排索引》刚满十八工地搬砖数据结构
1、了解倒排索引的基本概念1.1、倒排索引是什么倒排索引是一种用于全文搜索的数据结构，它将文档中的每个单词映射到包含该单词的所有文档的列表中，然后用该列表替换单词。因此，倒排索引在文本搜索和信息检索中广泛应用，如搜索引擎、网站搜索、文本分类等场景中。具体来说，一个倒排索引包含一个词语词典和每个词语对应的倒排列表。倒排列表中记录了包含该词语的所有文档的编号、词频等信息。这让我们能够在O(1)的时间内
NLP技术小天才dhsb 网络其他
自然语言处理（NLP）技术可以应用在多个领域，例如机器翻译、情感分析、文本分类等。以下是几个例子：1.机器翻译：NLP技术可以将一种语言的文本自动翻译成另一种语言。例如，谷歌翻译就是应用了NLP技术，它可以将英语的文本翻译成其他语言，如法语、西班牙语等。2.情感分析：NLP技术可以分析文本中的情感倾向。例如，通过分析社交媒体上用户的评论和推文，可以判断用户对某个产品或事件的情感态度是正面的、负面的
大语言模型可信性浅谈 MarkHD 语言模型人工智能自然语言处理
大语言模型可信性的研究摘要：随着人工智能技术的快速发展，大语言模型在自然语言处理领域的应用越来越广泛。然而，大语言模型的可信性一直是人们关注的焦点。本文将从多个维度探讨大语言模型的可信性问题，包括模型性能、数据质量、隐私保护等方面，并提出相应的解决方案。一、引言大语言模型是指能够处理大规模文本数据的深度学习模型，如BERT、GPT等。这些模型在自然语言处理任务中取得了显著的成果，包括文本分类、情感
基于ERNIR3.0文本分类的开发实践 wangqiaowq 人工智能
参考：基于ERNIR3.0文本分类：(KUAKE-QIC)意图识别多分类(单标签)-飞桨AIStudio星河社区(baidu.com)https://zhuanlan.zhihu.com/p/574666812?utm_id=0遇到的问题：如下采用paddleNLP下文本分类实例进行分类训练后发现生成的模型分类不准。打算自己开发脚本进行分类计算再进行服务化部署。基于ERNIR3.0文本分类任务模型
【探索AI】四：AI（人工智能）自然语言处理（NLP）美少女战士1@ 学习笔记 AI 人工智能自然语言处理
自然语言处理（NLP）的概念自然语言处理（NaturalLanguageProcessing，NLP）是一门交叉学科，涉及人工智能、计算机科学和语言学等领域，旨在让计算机能够理解、分析、生成和处理人类语言。NLP技术致力于使计算机能够与人类以自然语言进行交流，从而实现更加智能、便捷的人机交互。在自然语言处理中，常见的任务包括但不限于：文本分类：将文本按照预定义的类别进行分类，如垃圾邮件分类、新闻分
文本分类算法能够应用于哪些领域？真实项目场景介绍思通数科x 分类数据挖掘人工智能多分类
我们有幸参与了多个涉及分类算法的项目，这些项目覆盖了多个行业，展示了分类算法的广泛应用和巨大潜力。下面我为大家介绍几个实际的真实项目案例：1.某城市档案馆我们为一线某城市的档案馆开发了一个智能分类系统。这个系统能够自动识别和分类158种不同类型的公文，极大地提高了档案管理的效率。通过机器学习算法，我们训练了一个模型，它能够理解公文的内容和格式，从而实现快速且准确的分类。这不仅减少了人工分类的时间，
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
21丨朴素贝叶斯分类（下）：如何对文档进行分类？张九日zx
朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。sklearn机器学习包sklearn的全称叫Scikit-learn，它给我们提供了3个朴素贝叶斯分类算法，分别是高斯朴素贝叶斯（GaussianNB）、多项式朴素贝叶斯（MultinomialNB）和伯努利朴素贝叶斯（BernoulliNB）。自然界的现象比较适合用高斯朴素贝叶斯来处理，而文本分类是使用多项式朴素贝叶斯或者伯努利朴
Task6 基于深度学习的文本分类3 listentorain_W
基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"AttentionisAllYouNeed"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。i
8、python多项式贝叶斯文本分类（完整） UP Lee 数据挖掘实战多项式贝叶斯文章分类
1、贝叶斯定理（BayesTheorem）朴素贝叶斯分类（NaiveBayesClassifier）贝叶斯分类算法，是统计学的一种分类方法，它是利用贝叶斯定理的概率统计知识，对离散型的数据进行分类的算法2、贝叶斯算法的类型sklearn包naive_bayes模块GaussianNB高斯贝叶斯BernoulliNB伯努利贝叶斯MultionmialNB多项式贝叶斯（需要知道具体每个特征的数值大小）
zero shot classification提取主题词狗庄欺人太甚 NLP 机器学习 python 算法
基于NLI的零镜头文本分类。zeroshotclassification提出了一种使用预训练的NLI模型作为现成的零样本序列分类器的方法。该方法的工作原理是将要分类的序列设置为NLI前提，并从每个候选标签构建一个假设。例如，如果我们想评估一个序列是否属于“政治”类，我们可以构建一个“本文是关于政治”的假设。然后将蕴涵和矛盾的概率转换为标签概率。这种方法在许多情况下都非常有效，尤其是与BART和Ro
Task5 基于深度学习的文本分类2 listentorain_W
Task5基于深度学习的文本分类2在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法Part3词向量本节通过word2vec学习
使用word2vec+tensorflow自然语言处理NLP 取名真难. 机器学习自然语言处理 word2vec tensorflow 机器学习深度学习神经网络
目录介绍：搭建上下文或预测目标词来学习词向量建模1：建模2：预测：介绍：Word2Vec是一种用于将文本转换为向量表示的技术。它是由谷歌团队于2013年提出的一种神经网络模型。Word2Vec可以将单词表示为高维空间中的向量，使得具有相似含义的单词在向量空间中距离较近。这种向量表示可以用于各种自然语言处理任务，如语义相似度计算、文本分类和命名实体识别等。Word2Vec的核心思想是通过预测上下文或
ERNIE实现酒店情感分析（文本分类） OverlordDuke 深度学习 NLP 分类数据挖掘人工智能 NLP
ERNIE实现酒店情感分析（文本分类）引言在自然语言处理（NLP）领域，文本分类是一项重要的任务，它能够帮助我们理解和分析大量的文本数据。随着深度学习技术的发展，预训练模型成为了处理文本分类任务的重要工具。本项目将介绍如何利用PaddleHub和预训练模型ERNIE来完成酒店情感分析，即对酒店评论进行积极或消极的分类。项目背景与意义在过去，NLP文本处理主要依赖于序列模型，如循环神经网络（RNN）
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

文本分类学习 （五） 机器学习SVM的前奏-特征提取（卡方检验续集）

你可能感兴趣的:(文本分类)

文本分类学习（五）机器学习SVM的前奏-特征提取（卡方检验续集）