hoohaa_

文本分类实战---tfidf+embedding---2

上一篇文章讲了自己关于如何结合使用tfidf和embedding的一点想法。这篇文章就具体来讲讲怎么实现。

对于embedding来说，我们不在多做操作，直接调用接口获得每个单词的embedding向量就行了。主要是tfidf的获取方法。我们要获得每一个单词对应的tfidf值，然后对每一个句子形成一个tfidf值组成的向量。还需要着重考虑的是，我们使用的语料库体积是很大的问题。

网上搜索了一下，主要有三种方法计算tfidf值。使用sklearn的接口，gensim接口，python手写。
下面我们说一下每种方法的使用方式，并对每种方式举一个简单的例子帮助理解。然后针对我们的需要选择一种方式计算我们项目中使用的tfidf值。

1.python手写

因为tfidf的原理很简单，公式不复杂，所以我们可以选择自己根据公式直接计算。原理可以参考这篇博客。
这种自己手写的优势就是灵活性很高，你想要什么样的数据形式都可以相对轻松的得到。所以一开始我使用的方法也是自己手写。但是在实际操作中，自己手写的方法耗时非常多，相比于sklearn接口直接调用，慢了有三倍，这个速度是不能接受的。，所以我放弃了这个方法。

其实在手写之前就已经意识到速度会很慢了，因为在计算的时候会计算单词在全部字典中的出现频率，字典很大的情况下速度肯定不高。仍然选择尝试一下的原因就是灵活度的问题，调用接口获得数据格式不是我想要的。没办法，只能选择尝试使用接口的方法，然后将接口获得的数据进行改变了。

下面写手写计算tfidf值的代码实现：

语料库：

    corpus = [
        'this is the first document',
        'this is the second second document',
        'and the third one',
        'is this the first document'
    ]

对语料进行分词：

    [输入]:
    word_list = []
    for i in range(len(corpus)):
        word_list.append(corpus[i].split(' '))
    print(word_list)
    [输出]:
    [['this', 'is', 'the', 'first', 'document'],
     ['this', 'is', 'the', 'second', 'second', 'document'],
     ['and', 'the', 'third', 'one'],
     ['is', 'this', 'the', 'first', 'document']]

统计词频：

    [输入]:
    countlist = []
    for i in range(len(word_list)):
        count = Counter(word_list[i])
        countlist.append(count)
    countlist
    [输出]:
    [Counter({'document': 1, 'first': 1, 'is': 1, 'the': 1, 'this': 1}),
     Counter({'document': 1, 'is': 1, 'second': 2, 'the': 1, 'this': 1}),
     Counter({'and': 1, 'one': 1, 'the': 1, 'third': 1}),
     Counter({'document': 1, 'first': 1, 'is': 1, 'the': 1, 'this': 1})]

定义公式：

    # word可以通过count得到，count可以通过countlist得到
    # count[word]可以得到每个单词的词频， sum(count.values())得到整个句子的单词总数
    def tf(word, count):
        return count[word] / sum(count.values())
    # 统计的是含有该单词的句子数
    def n_containing(word, count_list):
        return sum(1 for count in count_list if word in count)
    # len(count_list)是指句子的总数，n_containing(word, count_list)是指含有该单词的句子的总数，加1是为了防止分母为0
    def idf(word, count_list):
        return math.log(len(count_list) / (1 + n_containing(word, count_list)))
    # 将tf和idf相乘
    def tfidf(word, count, count_list):
        return tf(word, count) * idf(word, count_list)

计算tfidf：

    [输入]:
    import math
    for i, count in enumerate(countlist):
        print("Top words in document {}".format(i + 1))
        scores = {word: tfidf(word, count, countlist) for word in count}
        sorted_words = sorted(scores.items(), key=lambda x: x[1], reverse=True)
        for word, score in sorted_words[:]:
            print("\tWord: {}, TF-IDF: {}".format(word, round(score, 5)))
    [输出]:
    Top words in document 1
        Word: first, TF-IDF: 0.05754
        Word: this, TF-IDF: 0.0
        Word: is, TF-IDF: 0.0
        Word: document, TF-IDF: 0.0
        Word: the, TF-IDF: -0.04463
    Top words in document 2
        Word: second, TF-IDF: 0.23105
        Word: this, TF-IDF: 0.0
        Word: is, TF-IDF: 0.0
        Word: document, TF-IDF: 0.0
        Word: the, TF-IDF: -0.03719
    Top words in document 3
        Word: and, TF-IDF: 0.17329
        Word: third, TF-IDF: 0.17329
        Word: one, TF-IDF: 0.17329
        Word: the, TF-IDF: -0.05579
    Top words in document 4
        Word: first, TF-IDF: 0.05754
        Word: is, TF-IDF: 0.0
        Word: this, TF-IDF: 0.0
        Word: document, TF-IDF: 0.0
        Word: the, TF-IDF: -0.04463

2.sklearn接口

sklearn提供了TfidfVectorizer这个接口来计算tfidf值。这个接口会返回一个存储tfidf值的稀疏矩阵。从这个稀疏矩阵中直接取tfidf值是不太好弄的，我也没太仔细研究。如果将这个稀疏矩阵转化成稠密矩阵或者array的话，就会占用内存过大，也不可取。所以不使用sklearn的方法。

下面写一下sklearn接口的使用：

    corpus = [
        'this is the first document',
        'this is the second second document',
        'and the third one',
        'is this the first document'
    ]

    [输入]:
    from sklearn.feature_extraction.text import TfidfVectorizer
    tfidf_vec = TfidfVectorizer()
    tfidf_matrix = tfidf_vec.fit_transform(corpus)
    # 得到语料库所有不重复的词
    print(tfidf_vec.get_feature_names())
    # 得到每个单词对应的id值
    print(tfidf_vec.vocabulary_)
    # 得到每个句子所对应的向量
    # 向量里数字的顺序是按照词语的id顺序来的
    print(tfidf_matrix.toarray())
    [输出]:
    ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
    {'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
    [[0.         0.43877674 0.54197657 0.43877674 0.         0.
      0.35872874 0.         0.43877674]
     [0.         0.27230147 0.         0.27230147 0.         0.85322574
      0.22262429 0.         0.27230147]
     [0.55280532 0.         0.         0.         0.55280532 0.
      0.28847675 0.55280532 0.        ]
     [0.         0.43877674 0.54197657 0.43877674 0.         0.
      0.35872874 0.         0.43877674]]

2.gensim接口

这个接口的好处是返回的数据格式比较贴近我想要的形式的。他会将每个句子对应到一个列表，每个列表里是句长个数的元组，每个元组是单词id和tfidf值的组合。id是通过gensim里面的一个接口获得的。有一点需要处理的是，每个句子对应的列表里元组出现的顺序并不是原始句子中单词出现的顺序，而是按照id的大小排序的。而我们想要得到的形式是tfidf的值出现的顺序就是单词在句中出现的顺序，所以得到gensim形式的列表后我们还要处理一下。

下面我们先来看一下gensim提供接口的一个使用小例子。然后我们重点讲一下我们是怎么处理数据得到我们想要的数据形式的。

    corpus = [
        'this is the first document',
        'this is the second second document',
        'and the third one',
        'is this the first document'
    ]

分词处理：

    [输入]:
    word_list = []
    for i in range(len(corpus)):
        word_list.append(corpus[i].split(' '))
    print(word_list)
    [输出]:
    [['this', 'is', 'the', 'first', 'document'],
     ['this', 'is', 'the', 'second', 'second', 'document'],
     ['and', 'the', 'third', 'one'],
     ['is', 'this', 'the', 'first', 'document']]

    [输入]：
    from gensim import corpora
    # 赋给语料库中每个词(不重复的词)一个整数id
    dictionary = corpora.Dictionary(word_list)
    new_corpus = [dictionary.doc2bow(text) for text in word_list]
    print(new_corpus)
    # 元组中第一个元素是词语在词典中对应的id，第二个元素是词语在文档中出现的次数
    [输出]：
    [[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)], 
     [(0, 1), (2, 1), (3, 1), (4, 1), (5, 2)], 
     [(3, 1), (6, 1), (7, 1), (8, 1)], 
     [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)]]
     [输入]：
     # 通过下面的方法可以看到语料库中每个词对应的id
     print(dictionary.token2id)
     [输出]：
     {'document': 0, 'first': 1, 'is': 2, 'the': 3, 'this': 4, 'second': 5, 'and': 6,
     'one': 7,   'third': 8}

    [输入]：
    # 训练模型并保存
    from gensim import models
    tfidf = models.TfidfModel(new_corpus)
    tfidf.save("my_model.tfidf")
    # 载入模型
    tfidf = models.TfidfModel.load("my_model.tfidf")
    # 使用这个训练好的模型得到单词的tfidf值
    tfidf_vec = []
    for i in range(len(corpus)):
        string = corpus[i]
        string_bow = dictionary.doc2bow(string.lower().split())
        string_tfidf = tfidf[string_bow]
        tfidf_vec.append(string_tfidf)
    print(tfidf_vec)
    [输出]：
    [[(0, 0.33699829595119235),
      (1, 0.8119707171924228),
      (2, 0.33699829595119235),
      (4, 0.33699829595119235)],
     [(0, 0.10212329019650272),
      (2, 0.10212329019650272),
      (4, 0.10212329019650272),
      (5, 0.9842319344536239)],
     [(6, 0.5773502691896258), (7, 0.5773502691896258), (8, 0.5773502691896258)],
     [(0, 0.33699829595119235),
      (1, 0.8119707171924228),
      (2, 0.33699829595119235),
      (4, 0.33699829595119235)]]

另外，使用gensim还要注意几件事情：

    gensim训练出来的tf-idf值左边是词的id，右边是词的tfidf值
    gensim有自动去除停用词的功能，比如the
    gensim会自动去除单个字母，比如i
    gensim会去除没有被训练到的词，比如name
    所以通过gensim并不能计算每个单词的tfidf值

好了。下面重点描述一下我们是如何计算得到自己项目中想要的tfidf形式的。
我们想要的tfidf形式是这样的，一个句子中的单词被表示成tfidf值，这样一个句子就是几个tfidf值组成的向量形式。并且，新形成的向量中元素的顺序保持原始句子中单词的顺序。这一点很重要，因为我们知道文本的一部分信息是保存在语句的顺序中的。

先来看一下原始数据的形式：

X_train = train_df["question_text"].fillna("na").values  
# ['how did quebec nationalists see their province as a nation in the ####s ? '
#  'do you have an adopted dog ,  how would you encourage people to adopt and not shop ? '
#  'why does velocity affect time ?  does velocity affect space geometry ? ']

我们可以看到整个训练集是一个列表，每个句子是一个列表中的元素。下一步我们进行分词处理，将每个句子变成一个列表。

X_train_word_list = []
# [['how', 'did', 'quebec', 'nationalists', 'see', 'their', 'province', 'as', 'a', 'nation', 'in', 'the', '####s', '?', ''], ['do', 'you', 'have', 'an', 'adopted', 'dog', ',', '', 'how', 'would', 'you', 'encourage', 'people', 'to', 'adopt', 'and', 'not', 'shop', '?', ''], ['why', 'does', 'velocity', 'affect', 'time', '?', '', 'does', 'velocity', 'affect', 'space', 'geometry', '?', '']]
for i in range(len(X_train)):
    X_train_word_list.append(X_train[i].split(' '))

接下来，调用gensim接口。先将训练集中的单词拿出来形成一个Wordlist，并使用corpora形成一个单词的字典，然后dictionary.doc2bow生成词袋。其中每个句子形成一个列表，列表由句长个元组组成，每个元组的第一个元素的单词id，第二个元素是单词在句中的词频

from gensim import corpora
# 赋给语料库中每个词(不重复的词)一个整数id
word_list = X_train_word_list+X_test_word_list
dictionary = corpora.Dictionary(word_list)
corpus = [dictionary.doc2bow(text) for text in word_list]
# [[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1)]]
# 元组中第一个元素是词语在词典对应的id，第二个元素是词语在句子中出现的次数

from gensim import models
tfidf = models.TfidfModel(corpus)

上面的tfidf模型我们可以从中得到tfidf值，不过得到的形式是单词id和对应的tfidf值组成的元组，并且这时候的句子由这些元组组成，但是顺序是按照id的大小排序的。为了得到按句子单词出现顺序形成的tfidf向量，我们先把句子表示成由单词id按单词出现顺序组成的向量。下面是具体的操作：

X_train_id = []  # 将句子表示成单词在词典中id的形式
# [[6, 5, 11, 9, 12, 14, 10, 4, 3, 8, 7, 13, 1, 2, 0], [20, 29, 23, 18, 17, 21, 15, 0, 6, 28, 29, 22, 25, 27, 16, 19, 24, 26, 2, 0], [36, 31, 35, 30, 34, 2, 0, 31, 35, 30, 33, 32, 2, 0]]
word_id_dict = dictionary.token2id
for i in range(len(X_train_word_list)):
    sen_id = []
    word_sen = X_train_word_list[i]
    for j in range(len(word_sen)):       
        id = word_id_dict.get(word_sen[j])
        if id is None:
            id = 0 
        sen_id.append(id)
    X_train_id.append(sen_id)

可以看到，现在的句子是用单词id表示成的，并且顺序是原始句子单词出现的顺序。

然后，为了方便我们将tfidf值顺序进行调整，我们将id和tfidf值对应的形式存储到python的dict里，每一个句子都形成一个dict

X_train_tfidf_vec = []  # 每个句子是一个字典，key是单词的ID，value是单词对应的tfidf值
# {1: 0.3575884680878971, 2: 1.138526028042638e-05, 3: 0.06784206283888641, 4: 0.1578771299789853, 5: 0.17261014334370672, 6: 0.07546735698247294, 7: 0.06744570199911137, 8: 0.33649935246876767, 9: 0.4503446034778049, 10: 0.43789085413253603, 11: 0.4463286505421934, 12: 0.2444398022602915, 13: 0.046399522873083514, 14: 0.1834687282725944}
for i in range(len(X_train)):
    temp = {}
    string = X_train[i]
    string_bow = dictionary.doc2bow(string.lower().split()) 
    string_tfidf = tfidf[string_bow]
    # 每个句子是一个list，句中的每个单词表示为一个元组，元组的第一个元素是单词的ID，第二个元素是tfidf值
#     print(string_tfidf) # [(1, 0.3575884680878971), (2, 1.138526028042638e-05), (3, 0.06784206283888641), (4, 0.1578771299789853), (5, 0.17261014334370672), (6, 0.07546735698247294), (7, 0.06744570199911137), (8, 0.33649935246876767), (9, 0.4503446034778049), (10, 0.43789085413253603), (11, 0.4463286505421934), (12, 0.2444398022602915), (13, 0.046399522873083514), (14, 0.1834687282725944)]   
    for j in range(len(string_tfidf)):
#         print(string_tfidf[j][0])
        temp[string_tfidf[j][0]] = string_tfidf[j][1]
#         print(temp)
    X_train_tfidf_vec.append(temp)

最后一步，我们将id表示的句子映射到tfidf值对应的句子就行了。

X_train_tfidf = []  # tfidf值形成的句子。每个句子是一个list
for i in range(len(X_train_id)):
    sen_id = X_train_id[i]
    sen_id_tfidf = X_train_tfidf_vec[i]
    sen = []
    for j in range(len(sen_id)):
        word_id = sen_id[j]
        word_tfidf = sen_id_tfidf.get(word_id)
        if word_tfidf is None:
            word_tfidf = 0
        sen.append(word_tfidf)
    X_train_tfidf.append(sen)

如果需要，还可以把tfidf形成的句子pad到相同的长度

x_train_tfidf = sequence.pad_sequences(X_train_tfidf, maxlen=maxlen,dtype='float64')

AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
python中的字符串操作北北大王 python 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、字符串基础1.创建字符串2.字符串拼接二、字符串常用方法1.大小写转换2.字符串查找3.字符串替换4.字符串分割与连接5.字符串格式化6.字符串填充三、字符串与列表转换四、字符串切片操作前言Python字符串作为最基础且强大的数据类型之一，提供了全面而灵活的文本处理能力。从基础的创建与拼接，到高效的查找替换；从智能的大
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
提示词工程在实体关系抽取中的创新 AI天才研究院计算 ChatGPT AI人工智能与大数据 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
1.5概念结构与核心要素组成在深入探讨提示词工程在实体关系抽取中的应用之前，我们需要对其概念结构与核心要素组成有一个清晰的理解。这一部分将介绍提示词工程的基本框架，以及实体关系抽取的关键技术。提示词工程的基本框架提示词工程（PromptEngineering）是指利用人工智能技术和自然语言处理方法，设计并优化用于训练语言模型的输入提示（prompt），以达到特定任务目标的过程。其核心框架包括以下几
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
**深度解析Annotated Jieba：Python中的高效中文分词库**
深度解析AnnotatedJieba：Python中的高效中文分词库去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于Jieba的增强版分词库，为了解决原Jieba库在复杂场景下的需求，它提供了更丰富的功能和更友好的API设计。该项目由USTCDane开发并维护，旨在帮助开发者更好地理解和使用Jieba进行中文文本处理。技术分析1.代码注释与文档AnnotatedJ
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
Bash Shell面试题高级汇总002 韩公子的Linux大集市 Bash入门 bash 开发语言
文章目录一、Shell原理进阶二、性能与资源管理三、并发控制与IPC四、安全与防御五、调试与追踪六、文本处理黑科技七、系统级深入题八、容器化环境九、综合场景题十、面试官深度追问方向以下是一份深度梳理的LinuxShell高级面试题汇总，涵盖脚本优化、系统原理、故障排查、安全实践等高频考点，适用于中高级开发/运维岗位：一、Shell原理进阶exec3<>file的作用是什么？文件描述符0-2的默认指
10.5 实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力机器学习深度学习人工智能语言模型
实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍在当今人工智能蓬勃发展的时代，大语言模型（LLMs）如ChatGLM3的出现，为自然语言处理领域带来了革命性的变化。企业和开发者们纷纷寻求利用这些强大的模型来构建定制化的应用，以满足特定业务需求。其中，使用私有数据对ChatGLM3进行微调，成为了实现差异化竞争和提供个性化服务的关键途径。然而，在微调过程中，确保批量生成数据的稳定性
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
Linux Vim 如何使用 BACKLS gradle vim
LinuxVim最全面教程目录介绍安装Vim基本操作启动与退出插入模式移动光标删除、复制和粘贴撤销与重做高级操作查找与替换多文件编辑宏与自动化插件管理配置Vim编辑vimrc常用配置示例总结介绍Vim是一个高度可配置的文本编辑器，适用于从日常文本编辑到复杂的编程任务。它的前身是vi编辑器，具有强大的文本处理能力和灵活的扩展性。安装Vim在不同的Linux发行版上安装Vim的方法略有不同。以下是一些
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
AI原生应用必知：5大高效多轮对话框架对比 AI原生应用开发 AI-native easyui 前端 ai
AI原生应用必知：5大高效多轮对话框架对比关键词：AI原生应用、多轮对话、对话框架、自然语言处理、上下文管理、意图识别、对话状态跟踪摘要：本文深入探讨了构建AI原生应用时必备的5大多轮对话框架，包括Rasa、Dialogflow、MicrosoftBotFramework、AmazonLex和IBMWatsonAssistant。通过对比分析它们的架构设计、核心功能和应用场景，帮助开发者选择最适合
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
Nystromformer：一种基于 Nyström 方法的自注意力近似算法 AI专题精讲 Paper阅读人工智能自然语言处理 AI
1.摘要Transformer已经成为广泛自然语言处理任务中的强大工具。推动Transformer展现出卓越性能的一个关键组件是self-attention机制，它对每个token编码了其他token的影响或依赖关系。虽然self-attention机制具有诸多优势，但其在输入序列长度上的二次复杂度限制了其在较长序列上的应用——这是当前社区积极研究的一个主题。为了解决这一限制，我们提出了Nystr
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

文本分类实战---tfidf+embedding---2

1.python手写

2.sklearn接口

2.gensim接口

你可能感兴趣的:(文本处理,自然语言处理)