修炼打怪的小乌龟

文本主题模型之LDA

什么是话题模型（topic model）？

话题模型就是用来发现大量文档集合的主题的算法。借助这些算法我们可以对文档集合进行归类。适用于大规模数据场景。目前甚至可以做到分析流数据。需要指出的是，话题模型不仅仅限于对文档的应用，可以应用在其他的应用场景中，例如基因数据、图像处理和社交网络。这是一种新的帮助人类组织、检索和理解信息的计算工具。
通过这类算法获得的那些主题都可以比喻成望远镜不同的放大倍数。我们可以根据特定的情形设置可以看到的关注对象的精度；并且可以研究主题随着时间变化产生的相关变化。这样的思考方式对于很多场景都是有效的，例如在搜索时，我们可以把单纯使用关键词的相关性推进到结合主题的结果整合从而给用户更好的使用体验。

Latent Dirichlet Allocation（LDA）

【总结】

LDA(Latent dirichlet allocation)[1]是有Blei于2003年提出的三层贝叶斯主题模型，通过无监督的学习方法发现文本中隐含的主题信息，目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构，这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模，这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match，而不是仅仅只是在词汇层次上出现交集。

这是最简单的话题模型。LDA的直觉上认为文档有多个话题生成。这个过程也是LDA给出的文档生成过程。

LDA生成过程：

所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

首先我们所做的事情都在词典的限定下，就是文档中出现的词都不会超出词典给出的范围。比如说，话题“基因”中以很高的概率包含若干关于基因的词，而话题“进化生物学”则会以很高概率包含进化生物学的相关词。我们假设这些话题在数据产生前已经确定了。现在在文档集合中的每个文档，我们来生成其中的文字。步骤如下：

随机选择话题之上的分布
对文档中的每个词
2.1 从步骤1中产生的分布中随机选择一个话题
2.2 从词典上的对应分布中随机选择一个词
这个统计模型反应出文档拥有不同比例的话题（步骤1）；每个文档中的每个词都是从众多话题之一中抽取出来的（步骤2.2），而被选择的话题是从针对每个文档的话题上的分布中产生的（步骤2.1）

简单理解这个生成过程：

1.对每一篇文档，从主题分布中抽取一个主题；

2.从上述被抽到的主题所对应的单词分布中抽取一个单词；

3.重复上述过程直至遍历文档中的每一个单词。

在LDA中，所有的文档共有同样的话题集，但是每个文档以不同的比例展示对应的话题。LDA的主要目标是自动发现一个文档集合中的话题。这些文档本身是可以观测到的，而话题的结构——话题、每个文档的话题分布和每个文档的每个词的话题赋值——是隐藏的（可称为hidden structure）。话题建模的核心计算问题就是使用观测到的文档来推断隐藏话题结构。这也可以看作是生成（generative）过程的逆过程——什么样的隐藏结构可以产生观测到的文档集合？

借助LDA算法可以得到话题的结构，需要指出的是，算法本身并不需要用到这些话题的信息，文档本身也没有使用话题或者关键字进行标注。这个隐藏结构最有可能产生现在可以观测到的文档集合。

话题模型方便的地方就是可以通过推断的隐藏结构来组成文档的主题结构。这样的信息对于信息检索，分类和语料研究提供了有力的支撑。所以可以这样说，话题模型给出了一种管理、组织和标注文本的大量集合的算法解答。

LDA的定义和分析

LDA和其他一些话题模型从属于概率建模领域之下。生成概率建模中，我们的数据可以从一个包含了隐藏变量的生成过程中得到。这个生成过程定义了一个在已观测随机变量和隐藏随机变量之上的联合概率分布。我们通过使用联合概率分布来计算给定观测变量值下的隐藏变量的条件分布。这种条件分布也被叫做后验分布。
LDA正好属于这个框架。已观测的变量就是那些文档中的词；隐藏变量就是话题模型；生成过程就是前面我们介绍的。而从文档来推断隐藏话题结构的问题就变成了计算后验分布的问题——计算给定文档后隐藏变量的条件分布。

现在我们可以形式化地描述LDA，话题 (Topics)是\beta_{1:K}，其中每个\beta_k是在词典上的分布。第d个文档的话题比例(Per-document topic proportions)是\theta_d，其中\theta_{d,k}是话题k在文档d中的比例。对第d个文档的话题赋值 (Per-word topic assignment) 就是z_d，其中z_{d,n}是第d个文档的第n个词的话题赋值。最后，文档d观测到的词 (Observed word) 是w_d，其中w_{d,n}是在文档d中的第n个词，它是来自于我们给定的词典的。

LDA参数：

K为主题个数，M为文档总数，是第m个文档的单词总数。 $\vec{\beta}$ 是每个Topic下词的多项分布的Dirichlet先验参数， $\vec{\alpha}$ 是每个文档下Topic的多项分布的Dirichlet先验参数。 $z_{m,n}$ 是第m个文档中第n个词的主题， $w_{m,n}$ 是m个文档中的第n个词。剩下来的两个隐含变量 $\vec{\theta}_m$ 和 $\vec{\phi}_k$ 分别表示第m个文档下的Topic分布和第k个Topic下词的分布，前者是k维(k为Topic总数)向量，后者是v维向量（v为词典中term总数）。

使用这个表示方法，LDA生成过程对应于下面的隐藏变量和观测变量的联合分布：

p(\beta_{1:K},\theta_{1:D},z_{1:D},w_{1:D})
= \prod_{i=i}^k p(\beta_i) \prod_{d=1}^D p(\theta_d) (\prod_{n=1}^N p(z_{d,n}|\theta_d)p(w_{d,n}|\beta_{1:K},z_{d,n}))

这个分布给出一些依赖关系。例如，话题赋值z_{d,n}依赖于对每个文档的话题比例\theta_d和所有的话题\beta_{1:K}（从实施角度上看，这个项首先通过确定其代表的话题z_{d,n}而后在那个话题中查询w_{d,n}相应的概率）

正是这样依赖关系定义了LDA。他们由生成过程背后的统计假设给出，以一种联合分布的数学形式和针对LDA的概率图模型的方式确定了这些依赖关系。概率图模型提供了一个图形化的语言来描述概率分布的家族（family）。这些表示方法都可以描述LDA背后的概率假设。
后面我们会介绍一下LDA的推断算法。这里顺便提一下pLSI（probabilistic latent semantic analysis）。这个模型本身是LSA的概率版本，它揭示了SVD在文档－项矩阵上的作用。从矩阵分解的角度看，LDA同样可以看作是对于离散数据的PCA。

LDA的后验分布计算

现在就开始介绍LDA的后验分布的计算，也就是在给定观测文档下计算话题结构的条件分布。（这就是传说中的后验分布posterior）
其定义如下：

p(\beta_{1:K},\theta_{1:D},z_{1:D}|w_{1:D})
= p(\beta_{1:K},\theta_{1:D},z_{1:D}, w_{1:D}) / p(w_{1:D})

分子是所有变量的联合分布，这个可以从任何隐藏变量的设置下计算获得。分母则是观测值的边缘分布，这是在任何话题模型下看到观测到的语料概率。理论上可以通过对隐藏话题结构的每个可能的初始化求和来得到联合分布。
当然了，可能的话题结构是指数级大的，这个问题难解的（NP-hard）。正如很多现代概率模型那样，因为分母难以计算就使得我们很难计算出后验。所以现代概率模型研究的焦点之一就是设计出高效的近似方法。话题模型算法通常是通用近似后验分布方法的适配使用。
话题模型算法通过适配一种隐藏话题结构的分布来接近最终正确的后验。而主要的话题建模算法可以分成两种——基于采样的算法和变分算法。
基于采样的算法尝试从后验分布中搜集样本使用一个经验分布来近似它。最常用的采样算法是Markov chain——一个随机变量的序列，每个变量只依赖于前一个，其极限分布是我们需要的后验分布。Markov chain定义在对一个特定的语料的隐藏话题变量上，算法思想就是运行chain很长一段时间，从极限分布中搜集样本，接着使用搜集来的样本来近似分布。（常常，仅仅是一个有着最大概率的样本被搜集来作为近似的话题结构）。
变分方法是一个确定性的方式。变分方法没有去使用样本来近似后验，而是采用了一个在隐藏结构上的参数化的分布家族，接着找到家族中最靠近后验的那个成员。因此，推断问题就被转化为一个优化问题了。变分方法打开了一扇通向实用的概率建模的创新大门。

See Blei et al.8 for a coordinate ascent variational inference algorithm for LDA; see Hoffman et al.20 for a much faster online algorithm (and open-source software) that easily handles millions of documents and can accommodate streaming collections of text.

不严格地说，两种类型的算法都是在话题结构上的一种搜索。文档集合（模型中的观测到的随机变量）是确定的，并当作是一个搜索方向的指导。方法的优劣取决于所使用的特定的话题模型——除了我们前面一直讨论的LDA，还有其他的话题模型——这也是学术争论之源。

用Gibbs Sampling 学习LDA参数的算法python代码如下：

#-*- coding:utf-8 -*-  
import logging  
import logging.config  
import ConfigParser  
import numpy as np  
import random  
import codecs  
import os  
  
from collections import OrderedDict  
#获取当前路径  
path = os.getcwd()  
#导入日志配置文件  
logging.config.fileConfig("logging.conf")  
#创建日志对象  
logger = logging.getLogger()  
# loggerInfo = logging.getLogger("TimeInfoLogger")  
# Consolelogger = logging.getLogger("ConsoleLogger")  
  
#导入配置文件  
conf = ConfigParser.ConfigParser()  
conf.read("setting.conf")   
#文件路径  
trainfile = os.path.join(path,os.path.normpath(conf.get("filepath", "trainfile")))  
wordidmapfile = os.path.join(path,os.path.normpath(conf.get("filepath","wordidmapfile")))  
thetafile = os.path.join(path,os.path.normpath(conf.get("filepath","thetafile")))  
phifile = os.path.join(path,os.path.normpath(conf.get("filepath","phifile")))  
paramfile = os.path.join(path,os.path.normpath(conf.get("filepath","paramfile")))  
topNfile = os.path.join(path,os.path.normpath(conf.get("filepath","topNfile")))  
tassginfile = os.path.join(path,os.path.normpath(conf.get("filepath","tassginfile")))  
#模型初始参数  
K = int(conf.get("model_args","K"))  
alpha = float(conf.get("model_args","alpha"))  
beta = float(conf.get("model_args","beta"))  
iter_times = int(conf.get("model_args","iter_times"))  
top_words_num = int(conf.get("model_args","top_words_num"))  
class Document(object):  
    def __init__(self):  
        self.words = []  
        self.length = 0  
#把整个文档及真的单词构成vocabulary（不允许重复）  
class DataPreProcessing(object):  
    def __init__(self):  
        self.docs_count = 0  
        self.words_count = 0  
        #保存每个文档d的信息(单词序列，以及length)  
        self.docs = []  
        #建立vocabulary表，照片文档的单词  
        self.word2id = OrderedDict()  
    def cachewordidmap(self):  
        with codecs.open(wordidmapfile, 'w','utf-8') as f:  
            for word,id in self.word2id.items():  
                f.write(word +"\t"+str(id)+"\n")  
class LDAModel(object):  
    def __init__(self,dpre):  
        self.dpre = dpre #获取预处理参数  
        #  
        #模型参数  
        #聚类个数K，迭代次数iter_times,每个类特征词个数top_words_num,超参数α（alpha） β(beta)  
        #  
        self.K = K  
        self.beta = beta  
        self.alpha = alpha  
        self.iter_times = iter_times  
        self.top_words_num = top_words_num   
        #  
        #文件变量  
        #分好词的文件trainfile  
        #词对应id文件wordidmapfile  
        #文章-主题分布文件thetafile  
        #词-主题分布文件phifile  
        #每个主题topN词文件topNfile  
        #最后分派结果文件tassginfile  
        #模型训练选择的参数文件paramfile  
        #  
        self.wordidmapfile = wordidmapfile  
        self.trainfile = trainfile  
        self.thetafile = thetafile  
        self.phifile = phifile  
        self.topNfile = topNfile  
        self.tassginfile = tassginfile  
        self.paramfile = paramfile  
        # p,概率向量 double类型，存储采样的临时变量  
        # nw,词word在主题topic上的分布  
        # nwsum,每各topic的词的总数  
        # nd,每个doc中各个topic的词的总数  
        # ndsum,每各doc中词的总数  
        self.p = np.zeros(self.K)  
        # nw,词word在主题topic上的分布  
        self.nw = np.zeros((self.dpre.words_count,self.K),dtype="int")  
        # nwsum,每各topic的词的总数  
        self.nwsum = np.zeros(self.K,dtype="int")  
        # nd,每个doc中各个topic的词的总数  
        self.nd = np.zeros((self.dpre.docs_count,self.K),dtype="int")  
        # ndsum,每各doc中词的总数  
        self.ndsum = np.zeros(dpre.docs_count,dtype="int")  
        self.Z = np.array([ [0 for y in xrange(dpre.docs[x].length)] for x in xrange(dpre.docs_count)])        # M*doc.size()，文档中词的主题分布  
  
        #随机先分配类型，为每个文档中的各个单词分配主题  
        for x in xrange(len(self.Z)):  
            self.ndsum[x] = self.dpre.docs[x].length  
            for y in xrange(self.dpre.docs[x].length):  
                topic = random.randint(0,self.K-1)#随机取一个主题  
                self.Z[x][y] = topic#文档中词的主题分布  
                self.nw[self.dpre.docs[x].words[y]][topic] += 1  
                self.nd[x][topic] += 1  
                self.nwsum[topic] += 1  
  
        self.theta = np.array([ [0.0 for y in xrange(self.K)] for x in xrange(self.dpre.docs_count) ])  
        self.phi = np.array([ [ 0.0 for y in xrange(self.dpre.words_count) ] for x in xrange(self.K)])   
    def sampling(self,i,j):  
        #换主题  
        topic = self.Z[i][j]  
        #只是单词的编号，都是从0开始word就是等于j  
        word = self.dpre.docs[i].words[j]  
        #if word==j:  
        #    print 'true'  
        self.nw[word][topic] -= 1  
        self.nd[i][topic] -= 1  
        self.nwsum[topic] -= 1  
        self.ndsum[i] -= 1  
  
        Vbeta = self.dpre.words_count * self.beta  
        Kalpha = self.K * self.alpha  
        self.p = (self.nw[word] + self.beta)/(self.nwsum + Vbeta) * \  
                 (self.nd[i] + self.alpha) / (self.ndsum[i] + Kalpha)  
  
        #随机更新主题的吗  
        # for k in xrange(1,self.K):  
        #     self.p[k] += self.p[k-1]  
        # u = random.uniform(0,self.p[self.K-1])  
        # for topic in xrange(self.K):  
        #     if self.p[topic]>u:  
        #         break  
  
        #按这个更新主题更好理解，这个效果还不错  
        p = np.squeeze(np.asarray(self.p/np.sum(self.p)))  
        topic = np.argmax(np.random.multinomial(1, p))  
  
        self.nw[word][topic] +=1  
        self.nwsum[topic] +=1  
        self.nd[i][topic] +=1  
        self.ndsum[i] +=1  
        return topic  
    def est(self):  
        # Consolelogger.info(u"迭代次数为%s 次" % self.iter_times)  
        for x in xrange(self.iter_times):  
            for i in xrange(self.dpre.docs_count):  
                for j in xrange(self.dpre.docs[i].length):  
                    topic = self.sampling(i,j)  
                    self.Z[i][j] = topic  
        logger.info(u"迭代完成。")  
        logger.debug(u"计算文章-主题分布")  
        self._theta()  
        logger.debug(u"计算词-主题分布")  
        self._phi()  
        logger.debug(u"保存模型")  
        self.save()  
    def _theta(self):  
        for i in xrange(self.dpre.docs_count):#遍历文档的个数词  
            self.theta[i] = (self.nd[i]+self.alpha)/(self.ndsum[i]+self.K * self.alpha)  
    def _phi(self):  
        for i in xrange(self.K):  
            self.phi[i] = (self.nw.T[i] + self.beta)/(self.nwsum[i]+self.dpre.words_count * self.beta)  
    def save(self):  
        # 保存theta文章-主题分布  
        logger.info(u"文章-主题分布已保存到%s" % self.thetafile)  
        with codecs.open(self.thetafile,'w') as f:  
            for x in xrange(self.dpre.docs_count):  
                for y in xrange(self.K):  
                    f.write(str(self.theta[x][y]) + '\t')  
                f.write('\n')  
        # 保存phi词-主题分布  
        logger.info(u"词-主题分布已保存到%s" % self.phifile)  
        with codecs.open(self.phifile,'w') as f:  
            for x in xrange(self.K):  
                for y in xrange(self.dpre.words_count):  
                    f.write(str(self.phi[x][y]) + '\t')  
                f.write('\n')  
        # 保存参数设置  
        logger.info(u"参数设置已保存到%s" % self.paramfile)  
        with codecs.open(self.paramfile,'w','utf-8') as f:  
            f.write('K=' + str(self.K) + '\n')  
            f.write('alpha=' + str(self.alpha) + '\n')  
            f.write('beta=' + str(self.beta) + '\n')  
            f.write(u'迭代次数  iter_times=' + str(self.iter_times) + '\n')  
            f.write(u'每个类的高频词显示个数  top_words_num=' + str(self.top_words_num) + '\n')  
        # 保存每个主题topic的词  
        logger.info(u"主题topN词已保存到%s" % self.topNfile)  
  
        with codecs.open(self.topNfile,'w','utf-8') as f:  
            self.top_words_num = min(self.top_words_num,self.dpre.words_count)  
            for x in xrange(self.K):  
                f.write(u'第' + str(x) + u'类：' + '\n')  
                twords = []  
                twords = [(n,self.phi[x][n]) for n in xrange(self.dpre.words_count)]  
                twords.sort(key = lambda i:i[1], reverse= True)  
                for y in xrange(self.top_words_num):  
                    word = OrderedDict({value:key for key, value in self.dpre.word2id.items()})[twords[y][0]]  
                    f.write('\t'*2+ word +'\t' + str(twords[y][1])+ '\n')  
        # 保存最后退出时，文章的词分派的主题的结果  
        logger.info(u"文章-词-主题分派结果已保存到%s" % self.tassginfile)  
        with codecs.open(self.tassginfile,'w') as f:  
            for x in xrange(self.dpre.docs_count):  
                for y in xrange(self.dpre.docs[x].length):  
                    f.write(str(self.dpre.docs[x].words[y])+':'+str(self.Z[x][y])+ '\t')  
                f.write('\n')  
        logger.info(u"模型训练完成。")  
# 数据预处理，即：生成d（）单词序列，以及词汇表  
def preprocessing():  
    logger.info(u'载入数据......')  
    with codecs.open(trainfile, 'r','utf-8') as f:  
        docs = f.readlines()  
    logger.debug(u"载入完成,准备生成字典对象和统计文本数据...")  
    # 大的文档集  
    dpre = DataPreProcessing()  
    items_idx = 0  
    for line in docs:  
        if line != "":  
            tmp = line.strip().split()  
            # 生成一个文档对象：包含单词序列（w1,w2,w3,,,,,wn）可以重复的  
            doc = Document()  
            for item in tmp:  
                if dpre.word2id.has_key(item):# 已有的话，只是当前文档追加  
                    doc.words.append(dpre.word2id[item])  
                else:  # 没有的话，要更新vocabulary中的单词词典及wordidmap  
                    dpre.word2id[item] = items_idx  
                    doc.words.append(items_idx)  
                    items_idx += 1  
            doc.length = len(tmp)  
            dpre.docs.append(doc)  
        else:  
            pass  
    dpre.docs_count = len(dpre.docs) # 文档数  
    dpre.words_count = len(dpre.word2id) # 词汇数  
    logger.info(u"共有%s个文档" % dpre.docs_count)  
    dpre.cachewordidmap()  
    logger.info(u"词与序号对应关系已保存到%s" % wordidmapfile)  
    return dpre  
def run():  
    # 处理文档集，及计算文档数，以及vocabulary词的总个数，以及每个文档的单词序列  
    dpre = preprocessing()  
    lda = LDAModel(dpre)  
    lda.est()  
if __name__ == '__main__':  
    run()

使用HTMLSectionSplitter进行智能HTML文档分割 afTFODguAKBF html python 前端
使用HTMLSectionSplitter进行智能HTML文档分割引言在处理大型HTML文档时，将其分割成更小的、语义相关的部分是一个常见需求。这不仅有助于提高文本处理的效率，还能保持文档的结构和上下文信息。本文将介绍LangChain库中的HTMLSectionSplitter，这是一个强大的工具，可以根据HTML结构智能地分割文档。HTMLSectionSplitter简介HTMLSectio
Java 正则表达式详解艾伦~耶格尔 Java初级 java 正则表达式开发语言学习
正则表达式(RegularExpression，简称regex)是一种强大的文本处理工具，可以用来匹配、搜索和替换文本中的特定模式。在Java中，正则表达式由java.util.regex包提供支持。1.理解正则表达式语法正则表达式使用特殊的字符和符号来定义匹配模式。一些常用的元字符如下：.:匹配任意单个字符*:匹配前面的字符零次或多次+:匹配前面的字符一次或多次?:匹配前面的字符零次或一次[]:
月之暗面对谈 Zilliz：长文本和 RAG 如何选择？冻感糕人~ 人工智能大数据算法自然语言处理 ai大模型 RAG 机器学习
01长文本与RAG通用对比准确率：通常情况下长文本优于RAG长文本：可更加综合的去分析所有相关的内容，提取相关数字，生成图表，效果尚可。RAG：更适合找到一段或者是几段可能相关的段落。如果希望大模型能够对问题有全局的认识，比较困难。如，根据上市公司的2020年财务报表，绘制图表，直接用RAG可能效果就不是很好。长文本在准确性上表现好的原因，以及长度与准确性选择长文本处理之后，会做对齐和专门的Ben
文本处理三剑客之--awk Hu_O&M linux bash 运维开发语言
一、简介awk是一个处理文本的编程语言工具，能用简短的程序处理标准输入或文件、数据排序、计算以及生成报表等等。awk处理的工作方式与数据库类似，支持对记录和字段处理，这也是grep和sed不能实现的。在awk中，缺省的情况下将文本文件中的一行视为一个记录，逐行放到内存中处理，而将一行中的某一部分作为记录中的一个字段。用1,2,3...数字的方式顺序表示行（记录）中的不同字段。用$后跟数字，引用对应
Linux 运维三剑客：grep、sed 和 awk 实战案例与命令参数详解 Lyle_Tu Linux 云计算运维运维 linux chrome 云计算服务器
在Linux运维中，grep、sed和awk是三个非常强大的文本处理工具，它们在处理文本数据时发挥着重要作用。本文将通过一些实战案例，展示这三个工具的使用方法和强大功能，并对它们的命令参数进行详解。grep：文本搜索利器grep是一个强大的文本搜索工具，它使用正则表达式来匹配文本模式。以下是grep的一些常用命令参数：-i：忽略大小写进行匹配。-v：反向查找，只打印不匹配的行。-n：显示匹配行的行
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
国产AI大模型Kimi爆火！概念梳理我爱学AI 人工智能 ai 大模型
在人工智能（AI）技术的飞速发展浪潮中，一款名为Kimi的国产大模型近期在资本市场上引起了广泛关注，成为了AI领域的新星。Kimi，由国内AI创业公司月之暗面科技有限公司（MoonshotAI）开发，凭借其卓越的长文本处理能力和丰富的应用场景，迅速在AI对话助手市场中脱颖而出。3月18日，根据月之暗面官方微信公众号消息，支持200万字上下文的Kimi即日启动“内测”。根据机器之心数据显示，尚未上线
【专题】2024年中国AI人工智能基础数据服务研究报告合集PDF分享（附原数据表）拓端研究室人工智能
原文链接：https://tecdat.cn/?p=37516随着人工智能技术的迅猛发展，AI基础数据服务行业迎来了前所未有的发展机遇。报告合集显示，2023年中国AI基础数据服务市场规模达到45亿元，且未来五年复合增长率有望达到30.4%。多模态大模型、长文本处理能力提升以及大模型小型化技术成为AI领域热点研究方向，从而推动了对高质量数据的大量需求。阅读原文，获取专题报告合集全文，解锁文末403
600 条最强 Linux 命令总结素年槿夏 linux 运维服务器
600条最强Linux命令总结1.基本命令2.关机3.文件和目录4.文件搜索5.挂载一个文件系统6.磁盘空间7.用户和群组8.文件的权限，使用“+”设置权限，使用“-”用于取消9.文件的特殊属性，使用“+”设置权限，使用“-”用于取消10.打包和压缩文件11.RPM包12.YUM软件包升级器13.deb包14.查看文件内容15.文本处理16.字符设置和文件格式转换17.文件系统分析18.初始化一个
Linux基础入门 --9 DAY 安红豆. Linux学习 linux 运维服务器
文本处理工具之神vimvi和vim简介一、vi编辑器vi是Unix及类Unix系统（如Linux）下最基本的文本编辑器，全称为“visualinterface”，即视觉界面。尽管其名称中包含“visual”，但vi编辑器实际上工作在字符模式下，并不提供图形界面。vi编辑器以其强大的功能和灵活性著称，是Linux系统中不可或缺的工具之一。vi编辑器具有三种主要的工作模式：命令模式（CommandMo
Linux 系统入门：高级系统管理与文本处理 Switch616 操作系统 linux chrome 运维数据库服务器架构
Linux系统入门：高级系统管理与文本处理目录⚙️Linux系统进程管理进阶Linux高效文本、文件处理命令Shell脚本入门⚙️Linux系统进程管理进阶在Linux系统中，进程管理是保持系统高效运行的核心。通过深入理解进程的概念及其管理方式，能够更好地优化系统资源，提升性能。Linux提供了多种工具和命令来监控和控制进程，从而实现对系统资源的高效管理。✨进程查看与监控ps命令：用于显示当前系统
5 - Shell编程之正则表达式与文本处理工具活老鬼 Shell脚本正则表达式 linux 服务器运维
目录一、正则表达式1.概述2.基本正则表达式2.1元字符（字符匹配）2.2表示匹配次数2.3位置锚定3.扩展正则表达式二、文本处理器1.sort命令-对文本文件进行排序，默认以字母排序2.uniq命令-找出或删除文本文件中连续出现的重复行3.tr命令-用于字符转换4.cut命令-对字段进行截取和剪裁一、正则表达式1.概述由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义
6 - Shell编程之sed与awk编辑器活老鬼 Shell脚本 linux 运维服务器
目录一、sed1.概述2.sed命令格式3.常用操作的语法演示3.1输出符合条件的文本3.2删除符合条件的文本3.3替换符合条件的文本3.4插入新行二、awk1.概述2.awk命令格式3.awk工作过程4.awk内置变量5.awk用法示例5.1按行输出文本5.2按字段输出文本一、sed1.概述sed是一个强大的文本处理工具，其名称是StreamEditor（流编辑器）的缩写。它被设计用于根据用户定
学习运维第五天:文本处理工具和正则表达式运维小白。。学习运维正则表达式
文本编辑工具之神VIM使用vim初步vim命令格式vim[OPTION]...FILE...#常用选项+n##打开文件后让光标处于第N行的行首，+默认尾行+/PATTERN#让光标处于第一个被PATTERN匹配到的行行首-bfile#二进制方式打开文件-dfile1file2…#比较多个文件，相当于vimdiff-mfile#只读打开文件-efile#直接进入ex模式，相当于执行exfile-yf
Fabric.js中fabric.Textbox的深入解析软考鸭 fabric fabric
在Web开发中，文本处理是一个重要的环节，尤其是在图形编辑和画布应用中。Fabric.js作为一个强大的Canvas库，提供了丰富的API来处理图形和文本。其中，fabric.Textbox是Fabric.js中用于创建和管理文本框对象的类。本文将深入解析fabric.Textbox，包括其API函数定义和代码示例解释，帮助开发者更好地理解和使用这个类。一、fabric.Textbox概述fabr
Shell 编程之正则表达式与文本处理器爱笑的文化正则表达式 mysql 数据库
文章目录正则表达式概述元字符总结扩展正则表达式sed工具awk工具sort工具uniq工具tr工具正则表达式概述正则表达式的定义正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp或RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式用途对于一般计
文本数据分析-（TF-IDF）（2）红米煮粥数据分析 tf-idf python
文章目录一、TF-IDF与jieba库介绍1.TF-IDF概述2.jieba库概述二、TF-IDF与jieba库的结合1.结合2.提取步骤三，代码实现1.导入必要的库读取文件：3.将文件路径和内容存储到DataFrame4.加载自定义词典和停用词5.分词并去除停用词TF-IDF（TermFrequency-InverseDocumentFrequency）与jieba库在文本处理领域有着紧密的联系
Linux三剑客之sed命令详解 promise524 linux shell bash sed 运维后端
sed（StreamEditor）是Linux中的一种流编辑器，主要用于文本的过滤和转换。与大多数文本编辑器不同，sed用于非交互式的文本处理，常被用在批处理任务中。它可以对输入的文本流进行逐行处理，并根据脚本或命令对文本进行修改。1.sed的基本语法sed[选项]'script'[文件]script：sed脚本，由命令和模式组成，用来定义对文本进行的操作。[文件]：需要处理的文本文件。如果不指定
常见的NLP处理框架介绍！ weixin_54503231 自然语言处理人工智能
自然语言处理（NLP）处理框架是指一系列用于开发、实现和部署自然语言处理应用程序的工具、库和框架。以下是一些主要的NLP处理框架的介绍：一、NLTK（NaturalLanguageToolkit）概述：NLTK是Python编程语言中最著名的NLP库之一，由StevenBird、EwanKlein和EdwardLoper等人开发。它提供了丰富的资源，包括文本处理、语料库、分类、标记、解析、语义推理
文本处理函数啊喔啊喔R Excel小技巧 excel
1.文本的提取leftmidright2.文本的查找与替换replace，substitute3.字符个数len字符lenb字节,office365好像没有此功能4.数据的清理clean,trim5.找不同exact
Linux Shell文本处理 Kali与编程～ Linux Shell入门到高级 linux php 数据库
预计更新1:基础知识简介和安装基本命令变量和环境变量2:流程控制条件语句循环语句函数3:文件处理文件读写文件权限和所有权文件搜索和替换4:网络和进程网络通信进程管理信号处理5:文本处理正则表达式文本分析和处理生成报告和日志6:用户界面命令行参数和选项菜单和交互式界面图形界面7:系统管理系统信息和监控定时任务和计划任务系统备份和恢复8:数据库操作数据库连接和查询数据库备份和恢复数据库管理和优化9:安
shell与文本处理数羊达人000 Linux基础 linux vim
1.实验项目名称Shell与文本处理系统管理员的一项重要工作就是要修改与设定某些重要软件的配置文件，因此至少得要学会一种以上的文字接口的文本编辑器。所有的Linux发行版本都内置有vi文本编辑器，很多软件也默认使用vi作为编辑的接口，因此读者一定要学会使用vi文本编辑器。vim是进阶版的vi，vim不但可以用不同颜色显示文本内容，还能够进行诸如shellscript、Cprogram等程序的编辑，
Shell文本处理(一) 对许 Linux #Shell linux shell
Shell文本处理一1、cat指令2、find指令3、grep指令4、awk指令5、sed命令文本处理是Shell中的一个重要领域，它允许你从文本数据中提取有用的信息，执行搜索、替换、格式化和过滤等操作。这对于日志分析、数据清洗、配置文件管理等任务非常有用Shell中常用的文本处理工具有：cat、find、grep、sed、awk、sort、uniq、tr、cut、paste、wc等1、cat指令
【Rust光年纪】深度探索：Rust语言中的文本分析与自然语言处理库综述 friklogff Rust光年纪 easyui 前端 javascript
内容分析从未如此简单！探索Rust语言文本处理库的奥秘前言在当今信息爆炸的时代，文本分析和自然语言处理技术变得愈发重要。Rust语言作为一种快速、安全、并发的编程语言，也逐渐走进了这一领域。本文将介绍几个用于Rust语言的文本分析和自然语言处理库，帮助读者更好地理解和应用这些工具。欢迎订阅专栏：Rust光年纪文章目录内容分析从未如此简单！探索Rust语言文本处理库的奥秘前言1.text_analy
awk文本处理工具难以触及的高度 linux 运维服务器
`awk`是一个强大的文本处理工具，在Shell编程中常用于处理和分析文本数据。它可以按列处理数据，进行模式匹配，生成报告，执行计算等。以下是一些`awk`的主要功能和使用场景：期待您的关注美好的观念较美人尤为可爱目录1.字段处理：2.模式匹配：3.计算：4.格式化输出：5.条件执行：6.内置变量和函数：1.字段处理：`awk`将每一行分割成字段（默认为空格或制表符），并允许你对这些字段进行操作。
Perl的基本知识海带土豆开发语言后端 perl
Perl语言，全称为“PracticalExtractionandReportingLanguage”，是一种高级、通用、解释型、动态编程语言，尤其适合文本处理、系统管理和网络编程等任务。Perl的设计理念是让常见任务简单化，复杂任务可能（但仍然可行）。它结合了C、sed、awk、shell脚本等多种语言的特点，并引入了正则表达式的强大功能，因此被誉为“程序员的瑞士军刀”。Perl语言入门学习基础
【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战 LDG_AGI AI智能体研发之路-模型篇机器学习 whisper 人工智能语音识别实时音视频 python transformer
目录一、引言二、Whisper模型原理2.1模型架构2.2语音处理2.3文本处理三、Whisper模型实战3.1环境安装3.2模型下载3.3模型推理3.4完整代码3.5模型部署四、总结一、引言上一篇对ChatTTS文本转语音模型原理和实战进行了讲解，第6次拿到了热榜第一。今天，分享其对称功能（语音转文本）模型：Whisper。Whisper由OpenAI研发并开源，参数量最小39M，最大1550M
深入解析Doctran：使用AI和NLP优化文本处理 qq_37836323 人工智能自然语言处理 python
深入解析Doctran：使用AI和NLP优化文本处理引言在当今数据驱动的世界中，高效处理和分析大量文本信息变得至关重要。Doctran作为一个强大的Python包，结合了大型语言模型（LLMs）和开源自然语言处理（NLP）库的优势，为开发者提供了一个强大的工具，用于将原始文本转换为结构化、信息密集且优化的文档。本文将深入探讨Doctran的功能、使用方法以及它如何改变文本处理的游戏规则。Doctr
SAM 2——视频和图像实时实例分割的全新开源模型知来者逆计算机视觉 SAM SAM 2 实例分割图像分割语义分割万物分割计算机视觉
引言源码地址：https://github.com/facebookresearch/segment-anything-2过去几年，人工智能领域在文本处理的基础人工智能方面取得了显著进步，这些进步改变了从客户服务到法律分析等各个行业。然而，在图像处理方面，我们才刚刚开始。视觉数据的复杂性以及训练模型以准确解释和分析图像的挑战带来了重大障碍。随着研究人员继续探索图像和视频的基础人工智能，人工智能图像
python中readlines函数用法,python中read() readline()以及readlines()用法布拉格小鸽子
我们谈到“文本处理”时，我们通常是指处理的内容。Python将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法：.read()、.readline()和.readlines()。每种方法可以接受一个变量以限制每次读取的数据量，但它们通常不使用变量。.read()每次读取整个文件，它通常用于将文件内容放到一个字符串变量中。然而.read()生成文件内容最直接的字符串表示，
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

文本主题模型之LDA

什么是话题模型（topic model）？

Latent Dirichlet Allocation（LDA）

LDA的定义和分析

LDA的后验分布计算

你可能感兴趣的:(文本处理)