天才暴风

LDA的python实现之模型参数训练

最近看了不少关于主题模型的东西，要说起主题模型，现在最火的当然是LDA, LDA全称是Latent Dirichlet Allocation(隐狄利克雷分布), 而不是Linear Discriminant Analysis, 相信大家很多都对lda的理解感到痛苦不已，因为里面涉及到的数学推导实在是太多了，从gamma函数,beta分布,狄利克雷分布,马尔可夫蒙特卡洛模型，看到都觉得反胃，不过今天，我们不从这些来说，就跟大家分析一下怎么从工程上去实现整个LDA

实现之前还是来说一下LDA的起源：

先上一张来自Blei大师之手的图，简单的说一下吧, theta代表文档－主题分布，在工程上可以理解为一个矩阵，如果整个文档语料库包含的词是|W|，包含的文档数是|D|，那么矩阵的大小就是|D| * |W|，直观的来说，这个矩阵中存储的值theta[d][z]表示的是文档d中被分派给主题z的词的个数,更具体的，我们可以认为它就是p(z|d)

主题模型是一种生成模型，什么是生成模型呢，比如我们在构思一篇文档：(1)我们要选择文章的主题，一个主题中可能有多个词; (2)我们现在就要从这个主题中选择我们想要的词;第一个部分的概率就是p(z|d)，表示在给定文档d，出现主题z的概率；

举一个例子（例子来源于 Rich jin的LDA数学八卦）:

我们平时在构造一篇自然语言处理的文章时，可能会有40%的概率谈论语言学，30%的概率谈论概率统计，20%的概率谈论计算机，还有10%谈论其他主题；选定了主题之后，我们执行第二部，选词，那正常情况下，我们是怎么选词的呢？

说到语言学：我们一般会想到语法，句子，乔姆斯基，据法分析，主语这些词
谈到概率统计，我们也很容易想到词：概率，模型，均值，方差，证明，独立，马尔可夫链
说到计算机，我们也能联想到内存，硬盘，编程，二进制，对象，算法，复杂度这些词

为什么能联想到这些词，因为在我们的认知下，这些词出现的频率比较高，换句话说，我们接触的这些词比较多，比较频繁，所以我们能在确定主题之后很快的从这些词中选择一个

这些是前话，现在来开始说一下工程上怎么实现吧，我自己是用python来写的，在这里跟大家分享一下

首先是LDA模型的类定义：

class LDAModel:
    alpha = float      #超参数alpha
    beta = float       #超参数beta
    D = int            #文档数目
    K = int            #主题个数
    W = int            #词的个数
    NumberOfIterations = int   #迭代次数
    SaveStep = int     #存储的步数


    Dictionary = object  #整个语料的词典
    Z = object         # D * doc.size()大小的矩阵，Z[i][j]表示第i文档的第j个词背分配的主题
    W = object         # D * doc.size()大小的矩阵， W[i][j]表示第i文档的第j个词
    IDListSet = object  # D * doc.size()大小的矩阵， IDListSet[i][j]表示第i篇文档的第j个词在词典中的编号
    nw = object        # W * K 大小的矩阵， nw[w][z]表示词w被分配到主题z的次数
    nd = object        # D * K 大小的矩阵，nd[d][z]文档d中被分配为主题z的词的个数
    nwsum = object     # K * 1 大小的向量，nwsum[z]表示主题z中包含的词的个数
    ndsum = object     # D * 1 大小的向量，ndsum[d]表示文档d中包含的词的个数
    theta = object     # D * K 大小的矩阵，p(z|d) = theta[d][z]
    phi = object       # K * V 大小的矩阵，p(w|z) = phi[z][w]

具体我就不说这些成员的意思，注释上都有，

首先是构造函数，这里要说明的是，在工程上，alpha一般取50/K, beta一般取0.01,吉布斯抽样的迭代次数一般为1000次、

    def __init__(self, alpha, beta, NumberOfIterations, SaveStep, K):
        self.alpha = alpha
        self.beta = beta
        self.NumberOfIterations = NumberOfIterations
        self.SaveStep = SaveStep
        self.K = K
        #初始化大小为K * 1的向量，初始值为0
        self.nwsum = ListUtil.Initial(self.K)

有一些列表工具类的方法我已经打包了，先列出来

#ListUtil.py

import string
def Normalize(list, smoother=0.0):
    """
    对向量list进行归一化处理，得到每个元素出现的概率
    :param list: 向量
    :param smoother: 平滑值，缺省值为0; 为了防止0概率的出现
    """
    sum = Sum(list)
    K = len(list)
    newlist = []
    if sum > 0:
        newlist = [float((item + smoother) / (sum + K * smoother)) for item in list]
    return newlist


def Sum(list):
    """
    计算list中所有元素的和
    """
    res = 0
    for item in list:
        res += item
    return res


def Initial(size, data=0):
    """
    生成一个大小为size, 所有元素都为data的列表
    :param size: 列表大小
    :param data: 列表元素
    """
    list = []
    for i in xrange(size):
        list.append(data)
    return list


def InitialMat(M, N, data=0):
    """
    初始化大小为M * N的矩阵，所有元素初始化为data
    :param M:
    :param N:
    :param data: 矩阵元素
    """
    mat = []
    for i in xrange(M):
        row = Initial(N, data)
        mat.append(row)
    return mat

def InitialEmptyMat(rows):
    """
    初始化一个空的matrix
    :param rows:
    """
    mat = []
    for i in xrange(rows):
        tmp = []   #代表每一个文档包含的词，初始化为空
        mat.append(tmp)
    return mat

def toString(list):
    """
    将list中的元素拼接成字符串
    方便用作文件操作
    :param list: 列表元素
    """
    listStr = ""
    count = 0
    for ele in list:
        if type(ele) == int:
            eleStr = str(ele)
        elif type(ele) == float:
            #浮点数转换为字符串，保留8位小数
            eleStr = str("%.10f"%ele)
        elif type(ele) == str or type(ele) == unicode:
            eleStr = ele
        if count != len(list) - 1:
            eleStr += " "
        count += 1
        listStr += eleStr
    listStr += "\n"
    return listStr

def StringToFloatList(SS):
    """
    string 转换为float
    :param SS: 从文件中读取的字符串
    """
    res = [string.atof(item) for item in SS.split(" ")]
    return res

def AssignList(LL):
    """
    将LL中的值拷贝到另一个list中
    :param LL: 字符串
    """
    newLL = []
    for ele in LL:
        newLL.append(ele)
    return newLL

def FindMax(LL):
    """
    返回列表LL中最大的元素
    """
    LL.sort()
    return LL[len(LL) - 1]

好，接着我们刚才的定义

现在可以开始初始化模型了，代码如下：

def ModelInit(self, filename):
        """
        读取文档，文本预处理，构造词典，构造语料库
        """
        Docs = LoadData.LoadDataFromFile(os.getcwd() + "/" + filename)
        self.D = len(Docs)
        print "Load ", self.D, " docs from the file"
        #读取停用词表
        StopWordList = LoadData.LoadStopWords()
        #对输入文本进行预处理：去标点符号，去停用词，词干化，然后每篇文档生成一个词的列表
        WordListSet = [Preprocess.PreprocessText(doc, StopWordList) for doc in Docs if type(doc) != unicode]
        #通过词表集构造词典
        self.Dictionary = Preprocess.ConstructDictionary(WordListSet)
        self.W = len(self.Dictionary)
        print "Total number of words is: ", self.W
        print "Begin to save the dictionary..."
        self.SaveDictionary()
        print "Done!!"
        #IDListSet 大小 D * doc.size()
        print "Begin to map the word to ID"
        self.IDListSet = []
        for wdl in WordListSet:
            IdList = Preprocess.Word2Id(wdl, self.Dictionary)
            self.IDListSet.append(IdList)
        print "Done!!"
        #ndsum[d] 文档d中包含的词的个数
        self.ndsum = ListUtil.Initial(self.D)
        #初始化一个 D * K的矩阵
        self.theta = ListUtil.InitialMat(self.D, self.K, 0.0)
        self.phi = ListUtil.InitialMat(self.K, self.W, 0.0)
        #nd[d][z] 文档d中被分配给主题z的词数
        self.nd = ListUtil.InitialMat(self.D, self.K, 0)
        #nw[w][z] 主题z中包含的词w的个数
        self.nw = ListUtil.InitialMat(self.W, self.K, 0)
        #Z[d][w] 文档d的第w个词的主题
        self.Z = []
        print "Begin to initialize the LDA model..."
        #初始化计数向量和计数矩阵
        self.RandomAssignTopic()
        print "Topic assignment done!!"

首先是从文件中读取文档，LoadData同样是我定义的工具类；然后用辅助类Preprocess去完成文本的预处理（包括去标点符号，去停用词，词干化，构造词典等等），初始化完成之后，再为每个词赋一个初始的topic，你可能要问，LDA中文档主题的选择应该要服从狄利克雷先验分布，但是为什么可以随机赋值，其实这要从马尔可夫链开始说起了，简单的来说，马尔可夫链就是对象的一系列状态的集合，并且对象的当前状态仅仅跟它的上一个状态有关，来看一个具体的例子

这个图反应的是一个人的收入跟它父母收入高低的联系，1代表下层，2代表中层，3代表上层；上面矩阵的第一行就表示，如果父代是上层阶级，那么他的子代有0.65的可能性仍然是上层阶级，有0.28的概率称为中层阶级，有0.07的概率成为下层阶级；上面的矩阵我们就定义为传递概率矩阵P，如果我们假设当代人属于这3个阶级的概率分别是x(0，1) x(0，2) x(0，3)，那么他们的下一代的阶级分布x(1) = x(0) * P，同样，再下一代的阶级分布x(2) = x(1) * P，其他的以此类推，下面来看一个例子：

我们假设初始代的阶级分布x(0) = [0.21 0.68 0.11]，那么通过结算可以得到以下结果

我们再换一个初始的阶级分布，假设现在x(0) = [0.75 0.15 0.1]，计算结果如下：

通过这两个例子，我们发现无论初始的状态怎么样，最后的阶级分布都能够收敛，并且收敛到同一个分布，这就是马尔可夫链的厉害之处，虽然我到现在仍然无法理解这其中的奥秘，但是把他应用到工程中还是可以的

马尔可夫把这个结论总结成了一个定理（不知道怎么打公式，直接上图了）：

这里的P就是我们上面所说的传递概率矩阵，最后的pi就是收敛之后的阶层分布，非周期性马氏链我也不太清楚是什么一回事儿，反正你要记住，我们日常生活中接触的大都是非抽泣性马氏链

正是因为马氏链这种收敛性，所以我们才能够在工程上为文档中的词随机分派主题，因为不管怎样，它最后都能够熟练到一个平稳分布，只是说收敛的快慢问题

现在来贴一下这两个工具类

#Preprocess.py
import string
import nltk
from gensim import corpora


def PreprocessText(text, StopWordList):
    """
    预处理一篇文本：剔除标点符号，词干化，去停用词
    :param text: 传入的文本，类型为字符串
    :param StopWordList: 停用词表
    """
    WordList = DelPunctuation(text)
    StemmeredWordList = Stemmer(WordList)
    FilteredWordList = FilterStopWords(StemmeredWordList, StopWordList)
    return FilteredWordList


def DelPunctuation(text):
    """
    剔除文本中的标点符号
    :param text:需要剔除标点符号的文本，类型为字符串
    return:返回文本中的词的序列
    """
    delset = string.punctuation
    #将标点符号转换为空格
    newText = text.encode('utf8').translate(None, delset)
    #文本中的词的列表
    WordList = [word for word in newText.split(" ") if word != '' and word != ' ']
    return WordList

def FilterStopWords(WordList, StopWordList):
    """
    返回去停用词后的词表
    :param WordList:
    :param StopWordList:
    """
    FilteredWordList = filter(lambda x: x.lower() not in StopWordList, WordList)
    return FilteredWordList


def Stemmer(WordList):
    """
    对文档的词表进行词干化
    :param WordList:
    """
    stemmer = nltk.LancasterStemmer()
    StemmeredWordList = [stemmer.stem(w) for w in WordList]
    return StemmeredWordList


def ConstructDictionary(WordListSet):
    """
    根据输入文档集texts构造词典
    :rtype : object
    :param WordListSet: 文档集对应的词表，WordListSet[i]表示第i篇文档中的词
    """
    print "Begin to construct the dictionary"
    res = corpora.Dictionary(WordListSet)
    print "Total number of words is: ", len(res)
    return res


def Word2Id(WordList, Dictionary):
    """
    将词表转换为词典dictionary中的ID
    :param WordList:
    """
    IDList = []
    for word in WordList:
        #遍历字典查找目标项
        for k, v in Dictionary.items():
            if v == word:
                IDList.append(k)
    return IDList

在文本与处理时，用到了nltk这个强大的自然语言处理的库，程序中使用其中的LancasterStemmer()进行词干化；然后也用到了gensim库，在这个类中，主要是用corpora来构造训练文档集的词典

在贴一下LoadData的代码

#LoadData.py
import os
import string


def LoadDataFromFile(path):
    """
    :param path:短文本存放路径
    """

    #转换为绝对路径
    fp = open(path, 'r')
    Docs = []
    for line in fp:
        #去掉结尾换行符
        ll = line.strip('\n').strip('\r')
        Docs.append(ll)
    fp.close()
    print "Done, load ", len(Docs), " docs from the file"
    return Docs


def LoadStopWords():
    """
    从指定路径读取停用词表
    return:停用词列表
    """
    path = os.getcwd()
    path += "/StopWords.txt"
    fp = open(path, 'r')
    #获取停用词列表
    StopWordsList = [line.strip('\n') for line in fp]
    fp.close()
    return StopWordsList


def LoadDictionary():
    """
    从指定路径加载训练词典
    """
    path = os.getcwd() + "/dictionary.txt"
    fp = open(path, 'r')
    Dictionary = dict()
    for line in fp:
        elements = line.strip('\n').split(" ")
        #词的id
        k = string.atoi(elements[0])
        #词本身
        v = elements[1]
        Dictionary[k] = v
    fp.close()
    return Dictionary

这个类我就不多解释了，学过python的小伙伴应该都能看懂，只是涉及文件操作的路径名你们可以自己diy，我用的是我自己电脑上的文件名

继续解析LDAModel类

初始化模型之后，我们就要开始训练模型参数了（后面的是重点哟）：

刚才忘记贴随机分派主题的代码了：

def RandomAssignTopic(self):
        """
        随机为文档中的词分配主题
        更新计数向量ndsum, nwsum, 计数矩阵nd, nw的值
        """
        for d in xrange(self.D):
            DocSize = len(self.IDListSet[d])
            row = ListUtil.Initial(DocSize)
            self.Z.append(row)
            for w in xrange(DocSize):
                #从主题编号0-K-1中随机抽取一个
                topic = Sample.UniSample(self.K)
                #获取词的ID
                wid = self.IDListSet[d][w]
                self.Z[d][w] = topic
                #被分派给topic的词w的数目自增1
                self.nw[wid][topic] += 1
                #文档d中被分配给主题topic的词的个数
                self.nd[d][topic] += 1
                #主题topic中包含的总的词数
                self.nwsum[topic] += 1
            self.ndsum[d] = DocSize

lda的训练过程主要就是吉布斯抽样的过程，具体的来说，吉布斯抽样就是将抽样的一个词w从当前的分布中抽出，然后通过抽出这个词之后的主题分布theta和词的分布phi，来计算这个词被分派到其他主题的概率，先上代码

    def sampling(self, d, w):
        """
        Gibbs Sampling为当前词重新分配主题
        :param d: 文档编号
        :param w: 词在文档中的编号
        """
        topic = self.Z[d][w]
        #对应位置上的词的ID
        wid = self.IDListSet[d][w]
        self.nw[wid][topic] -= 1
        self.nd[d][topic] -= 1
        self.nwsum[topic] -= 1
        self.ndsum[d] -= 1


        #p为马尔可夫链传递概率，p[z]表示当前词被分配到主题z的概率
        p = self.ComputeTransProb(d, w)


        #从多项分布中抽取新的主题
        newtopic = Sample.MultSample(p)
        self.nw[wid][newtopic] += 1
        self.nd[d][newtopic] += 1
        self.nwsum[newtopic] += 1
        self.ndsum[d] += 1
        return newtopic


    def ComputeTransProb(self, d, w):
        """
        对第d篇文档的第w个词
        计算Gibbs Sampling过程中的传递概率
        :param d: 文档编号
        :param w: 词在文档中的编号
        """
        #用于平滑
        Wbeta = self.W * self.beta
        Kalpha = self.K * self.alpha
        #第d篇文档，第w个词对应的id
        wid = self.IDListSet[d][w]
        p = ListUtil.Initial(self.K, 0.0)
        for k in xrange(self.K):
            #p[k] = p(w|k)*p(k|d)   k为主题
            p[k] = (float(self.nw[wid][k]) + self.beta) / (float(self.nwsum[k]) + Wbeta) * (float(self.nd[d][k]) + self.alpha) / (float(self.ndsum[d]) + Kalpha)
        return p

其实上面的计算法则就是p(z(i)=k|z', w, alpha,beta) = p(z'(i)=k|d)*p(w|z'(i)=k)，z'就是代表将当前词w剔除之后的主题分布，z(i)对应当前词w的主题，这里就跟文章开头的生成模型的原理呼应上了，我们先以一定的概率选择主题（p(topic|doc)），然后在从主题包含的词中抽取相应的词（p(word|topic)），吉布斯抽样也是沿着doc->topic->word这样的方向进行的，给一张图大家可能更好理解，theta[m][k]表示第m篇文档，第k个主题出现的概率；phi[k][t]表示主题k中，词t出现的概率

计算传递概率之后，我们再从多项分布中抽取相应的主题（这个函数对应MultSample函数，下面为整个Sample的代码）

def UniSample(K):
    """
    产生从O到K－1的整数
    :param K: 主题个数
    """
    return RandomNumber.RandInt(0, K - 1)


def MultSample(ProbList):
    """
    从多项分布ProbList中采样, ProbList表示剔除当前词之后的主题分布
    :param ProbList: 多项分布
    """
    size = len(ProbList)
    for i in xrange(1, size):
        ProbList[i] += ProbList[i - 1]
    #随机产生一个［0，1）的小数
    u = RandomNumber.RandFloat()
    res = 0
    for k in xrange(size):
        if ProbList[k] >= u * ProbList[size - 1]:
            #抽样结果
            res = k
            break
    #res为抽样后的主题编号
    return res

其实吉布斯抽样的目的就是为乐得到在图模型中的theta和phi，那要怎么样计算theta和phi呢？其实很简单的，吉布斯抽样中，doc-topic, topic-word矩阵的计数是变化的，当抽样收敛之后，我们就得到了最后的计数，通过这些计数来计算频率就好了

    def ComputTheta(self):
        """
        计算p(z|d)矩阵
        size:D * K
        p(z|d) = theta[d][z]
        """
        for d in xrange(self.D):
            for k in xrange(self.K):
                self.theta[d][k] = (float(self.nd[d][k]) + self.alpha) / (float(self.ndsum[d]) + self.K * self.alpha)

    def ComputePhi(self):
        """
        计算p(w|z)
        size:K * W
        p(w|z) = phi[z][w]
        """
        for k in xrange(self.K):
            for w in xrange(self.W):
                self.phi[k][w] = (self.nw[w][k] + self.beta) / (self.nwsum[k] + self.W * self.beta)

为了防止0概率的出现，我们分别用alpha和beta做了平滑

首先来看phi[k][w]，我们用频率计数nw[w][k]（主题w中包含的词k的数目）来计算，不幸的是，这个值有可能为0，在一连串的乘式中，0的出现会使其他项毫无意义，所以我们要避免这种情况，怎么避免呢，我们可以假设主题k中事先已经存在了词典中的所有词，然后，再用我们得到的收敛之后的主题－词计数去更新里面的内容，这样，就可以保证不会出现0概率（因为所有词至少出现一次，同时，主题k中的词数nwsum[k]增加了W），那么phi[k][w]=(nw[w][k] + 1) / (nwsum[k] + W)，这就是鼎鼎大名的 “拉普拉斯平滑”，不过工程上，1对于概率的影响还是太大了（比如1/2和2/3），所以，我们吧1换成了更小的beta（一般是0.01），这样对于概率的影响就变得很小了，也就得到了上面的公式，theta[d][k]也同理

整个参数训练的过程如下

    def estimate(self):
        """
        LDA参数估计
        """
        for i in xrange(1, self.NumberOfIterations + 1):
            for d in xrange(self.D):
                for w in xrange(len(self.IDListSet[d])):
                    newtopic = self.sampling(d, w)
                    #为当前词分派新主题
                    self.Z[d][w] = newtopic
            if i % self.SaveStep == 0:
                #计算当前的迭代结果
                self.ComputTheta()
                self.ComputePhi()
                self.SaveTempRes(i)

LDA模型的参数训练部分就讲到这里，下一篇跟大家分享一下LDA的参数推导

希望看到的亲能帮我指出文中的错误，文笔不好，大家多见谅

基于LDA模型的经济金融政策文本研究与分析设计与实现，很详细 python编程狮金融人工智能 python LDA主题分析情感分析词云图文本挖掘
摘要经济金融政策文本的研究与分析对于理解国家经济发展方向和政策制定逻辑至关重要。近年来，随着信息技术的发展，基于文本的定量分析方法在经济金融领域得到广泛应用。LDA（LatentDirichletAllocation）作为一种典型的主题模型，能够有效地从大量政策文本中提取潜在的主题结构，帮助研究者理解和分析政策的核心内容和演变趋势。本研究基于LDA模型，对经济金融政策文本进行了系统的研究与分析。首
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
深度探索：机器学习中的条件生成对抗网络（Conditional GAN, CGAN）算法原理及其应用
目录1.引言与背景2.CGAN定理3.算法原理4.算法实现5.优缺点分析优点：缺点：6.案例应用7.对比与其他算法8.结论与展望1.引言与背景生成对抗网络（GenerativeAdversarialNetworks,GANs）作为一种深度学习框架，在无监督学习领域展现出强大的能力，特别在图像、音频、文本等复杂数据的生成任务中取得了显著成果。然而，原始GAN模型在生成过程中缺乏对生成样本特定属性的直
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
机器学习-- 聚类 SunsPlanter 机器学习机器学习聚类人工智能
什么是聚类？Clustering可以简单地说，对有标注的数据分类，就是逻辑回归（属于有监督分类），对无标注的数据分类，就是聚类（属于无监督分类）聚类是一种无监督学习技术，其目标是根据样本之间的相似性将未标记的数据分组。比如，在一个假设的患者研究中，研究人员正在评估一项新的治疗方案。在试验期间，患者每周会报告自身症状的频率以及严重程度。研究人员可以使用聚类分析将对治疗反应相似的患者归为同一类。图1展
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
《聚类算法》入门--大白话篇：像整理房间一样给数据分类
一、什么是聚类算法？想象一下你的衣柜里堆满了衣服，但你不想一件件整理。聚类算法就像一个聪明的助手，它能自动帮你把衣服分成几堆：T恤放一堆、裤子放一堆、外套放一堆。它通过观察衣服的颜色、大小、款式这些特征，把相似的放在一起，不相似的分开。在计算机世界里，聚类算法就是帮我们把杂乱的数据分成有意义的组。它不需要提前知道答案（这就是"无监督学习"），而是像侦探一样，从数据中发现隐藏的规律。二、最常见的三种
强化学习（Reinforcement Learning, RL）概览 MzKyle 人工智能人工智能强化学习机器学习机器人
一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支，研究智能体（Agent）在动态环境中通过与环境交互，以最大化累积奖励为目标的学习机制。与监督学习（有标注数据）和无监督学习（无目标）不同，强化学习通过“试错”学习，不依赖先验知识，适合解决动态决策问题。2.核心要素智能体（Agent）：执行决策的主体，如游戏AI、机器人。环境（Environment）：智能体之外的一切，如棋盘、物理世界
无监督学习概览 MzKyle 人工智能人工智能无监督学习机器学习
一、无监督学习的本质与定位定义：无监督学习是机器学习的三大范式之一（另外两种为监督学习和强化学习），其核心特点是处理未标注数据，通过算法自动发现数据中的隐藏结构、模式或内在规律。与监督学习依赖"输入-输出"对不同，无监督学习仅以原始数据作为输入，目标是揭示数据的内在组织方式。与其他学习范式的区别：监督学习：依赖标签（如分类、回归任务），学习从输入到输出的映射关系强化学习：通过与环境交互获得奖励信号
【深度学习pytorch-88】BERT 超华东算法王 DL-pytorch 深度学习 pytorch bert
BERT（BidirectionalEncoderRepresentationsfromTransformers）简介BERT是一种基于Transformer架构的预训练语言表示模型，旨在通过大规模无监督学习来提升下游自然语言处理（NLP）任务的效果。BERT由GoogleAI的研究人员于2018年提出，它在多个NLP任务上设立了新的最先进的性能基准。BERT的核心思想BERT的核心思想是通过预训
数据挖掘与机器学习期末复习整理无敌摸鱼高手数据挖掘与机器学习数据挖掘机器学习人工智能期末复习知识总结
1.分类：–有类别标记信息,因此是一种监督学习–根据训练样本获得分类器，然后把每个数据归结到某个已知的类，进而也可以预测未来数据的归类。2.聚类：–无类别标记,因此是一种无监督学习–无类别标记样本，根据信息相似度原则进行聚类，通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的关系3.聚类方法：划分方法-（分割类型）K-均值K-Means顺序领导者方法基于模型的方法
无监督学习中的特征选择与检测（FSD）在医疗动线流程优化中的应用 Allen_Lyb 医疗高效编程研发学习健康医疗架构人工智能
无监督学习中的特征选择与检测（FeatureSelectionandDetection,FSD）算法在医疗动线流程优化中具有重要的应用价值，尤其适用于从海量、复杂且缺乏明确标签的医疗行为数据中自动挖掘关键模式和瓶颈。以下是如何编程实现这种应用的思路和步骤：引言医疗动线流程优化是提升医疗机构运营效率、改善患者体验的关键领域。传统的流程优化方法往往依赖于人工观察和经验分析，难以从海量、复杂且缺乏明确标
吴恩达机器学习笔记（1）—引言大饼酥人工智能机器学习人工智能吴恩达
目录一、欢迎二、机器学习是什么三、监督学习四、无监督学习一、欢迎机器学习是当前信息技术领域中最令人兴奋的方向之一。在这门课程中，你不仅会学习机器学习的前沿知识，还将亲手实现相关算法，从而深入理解其内部机理。事实上，机器学习已广泛渗透进我们的日常生活。例如，每次你使用Google、Bing进行搜索，或用Facebook、Apple的图像识别功能识别朋友，甚至邮箱中的垃圾邮件过滤器，背后都离不开机器学
【人工智能机器学习基础篇】——深入详解无监督学习之聚类，理解K-Means、层次聚类、数据分组和分类猿享天开人工智能数学基础专讲机器学习人工智能无监督学习聚类
深入详解无监督学习之聚类：如K-Means、层次聚类，理解数据分组和分类无监督学习是机器学习中的一个重要分支，旨在从未标注的数据中发现潜在的结构和模式。聚类（Clustering）作为无监督学习的核心任务之一，广泛应用于数据分组、模式识别和数据压缩等领域。本文将深入探讨两种常用的聚类算法：K-Means聚类和层次聚类，并详细解释它们在数据分组和分类中的应用。目录深入详解无监督学习之聚类：如K-Me
《Sklearn 机器学习模型--分类模型》--K-means 聚类（K-means clustering algorithm）非门由也机器学习数据分析机器学习 sklearn 分类
K-means聚类算法K-means聚类算法是一种基于划分的无监督学习算法，通过迭代优化将数据划分为指定簇数（K值），使同一簇内样本相似度最大化、簇间差异最大化34。以下从算法原理、实现步骤、应用场景及优缺点展开说明：‌一、核心原理与实现步骤核心原理K-均值聚类(K-MeansClustering)是一种无监督学习算法，其基本思想是将数据集划分为K个不同的簇，使得每个样本点都属于离它最近的簇中心。
机器学习算法种类繁多以下是主要算法的详细描述、使用场景、经典案例、开源框架，以及学习和应用到实际场景的建议 zhxup606 数据结构与算法 .netcore
机器学习算法种类繁多，根据任务类型主要分为监督学习、无监督学习、半监督学习和强化学习四大类。以下是对主要算法的详细描述、使用场景、经典案例、开源框架，以及学习和应用到实际场景的建议。一、机器学习算法分类及详细描述1.监督学习（SupervisedLearning）监督学习使用带标签的数据（输入和输出已知）进行训练，目标是学习输入到输出的映射函数。1.1线性回归（LinearRegression）描
城市疫情态势发展与动态调控可视分析罗伯特之技术屋智能科学与技术专栏深度学习人工智能
摘要为了解决新冠肺炎疫情医疗资源的合理调配问题，以武汉方舱新冠肺炎疫情数据为基础，融合舆情、时空轨迹等多源数据，针对疫情防控搭建了方舱医院动态调控平台。引入水滴图表征方式动态监测方舱医院，采用主题模型融合情感词典提取群众情感特征，并借助WordStream呈现城市舆情发展，提出基于医院负载量的路径规划算法实现合理路线推荐，提供面向群众的科普信息和城市复苏板块以提升抗疫信心。该系统有利于实现人力、物
机器学习与深度学习13-K均值聚类 my_q 机器学习与深度学习机器学习深度学习均值算法
目录前文回顾1.K均值聚类定义2.K均值聚类的工作原理3.如何确定K均值聚类的K值4.K均值聚类的优点和局限性5.K均值聚类的常见初始化方法6.K均值聚类和层次聚类的区别与联系前文回顾上一篇文章地址：链接1.K均值聚类定义K均值聚类（K-meansclustering）是一种常用的无监督学习算法，用于将数据集划分为K个不同的簇。该算法通过最小化簇内样本之间的平方误差和最大化簇间的距离来确定簇的位置
解释半监督学习（Semi-Supervised Learning）的概念和方法（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）学习机器学习人工智能
半监督学习（Semi-SupervisedLearning,SSL）是机器学习领域中一个至关重要的分支，它巧妙地结合了监督学习和无监督学习的特点，旨在利用少量标记数据和大量未标记数据来进行学习。在现实世界的许多应用场景中，获取未标记数据相对容易且成本低廉，而标记数据则往往需要昂贵的人工标注，既耗时又费力。半监督学习的出现，为解决此类问题提供了一条有效途径，能够在标记数据稀缺的情况下，显著提升模型的
从 “被动拦截” 到 “智能预判”：下一代防火墙的五大核心技术突破柏睿网络人工智能
传统防火墙如同仅能按"剧本"执行的机械门卫，面对复杂多变的网络威胁时，常因规则滞后、检测粗放而陷入被动。下一代防火墙（NGFW）通过五大核心技术突破，构建起以"智能预判"为核心的主动防御体系，实现从"事后响应"到"事前阻断"的范式革命。一、AI驱动的威胁检测引擎：从规则匹配到行为建模技术突破机器学习驱动的异常检测抛弃传统的"特征码匹配"模式，采用无监督学习算法（如孤立森林、VAE变分自编码器）构建
构筑多元视角下的智能安全能力提升之道芯盾时代安全网络人工智能网络安全
面对日益专业化、隐蔽化的网络攻击，传统安全防御能力在实时性、精准性和可持续性层面遭遇严峻挑战。人工智能技术通过其强大的数据解析力、模式识别力与决策自动化能力，正在重塑网络安全能力的价值，推动安全体系完成从“被动响应”到“主动免疫”的根本性变革。在威胁检测方面，人工智能通过无监督学习构建动态基线模型，实时解析网络流量、终端行为及用户操作日志，突破传统特征库对已知威胁的依赖。基于深度神经网络的异常检测
聚类算法性能对比：K-means vs DBSCAN vs 层次聚类 AI智能探索者算法聚类 kmeans ai
聚类算法性能对比：K-meansvsDBSCANvs层次聚类关键词：聚类算法、K-means、DBSCAN、层次聚类、性能对比、机器学习、无监督学习摘要：聚类是无监督学习的核心任务之一，广泛应用于用户分群、图像分割、异常检测等场景。本文将用“分水果”“找朋友”“建家谱”等生活化比喻，从原理、优缺点到实战场景，一步一步对比K-means、DBSCAN、层次聚类三种主流算法。无论你是刚入门的机器学习爱
聚类算法参数调优指南：如何获得最佳分组效果 AIGC应用创新大全算法聚类数据挖掘 ai
聚类算法参数调优指南：如何获得最佳分组效果关键词：聚类算法、参数调优、K-means、DBSCAN、轮廓系数、Calinski-Harabasz、高维数据摘要：聚类算法是无监督学习的核心工具，广泛用于用户分群、图像分割、异常检测等场景。但很多人发现：即使选对了算法，参数设置不当也会导致“分组混乱”或“簇无意义”。本文将用“分糖果”“找人群”等生活案例，结合Python代码实战，从底层逻辑到调优技巧
机器学习——聚类算法 Xyz_Overlord 机器学习算法聚类
一、聚类的概念根据样本之间的相似性，将样本划分到不同的类别中的一种无监督学习算法。细节：根据样本之间的相似性，将样本划分到不同的类别中；不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下，自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性，一般使用欧式距离。二、聚类算法分类根据聚类颗粒度分类：细粒度和粗粒度。根据实现方法分
09_降维、特征提取与流行学习白杆杆红伞伞 machine learning 人工智能 python 机器学习
描述利用无监督学习进行数据变换可能有很多种目的。最常见的目的就是可视化、压缩数据，以及寻找信息量更大的数据表示用于进一步的处理。为了实现这些目的，最简单的也是最常用的一种算法就是主成分分析。另外两种算法：非负矩阵分解（NMF）和t-SNE，前者通常用于特征提取，后者通常用于二维散点图的可视化。PCA主成分分析（降维）主成分分析（principalcomponentanalysis,PCA）是一种旋
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

LDA的python实现之模型参数训练

你可能感兴趣的:(无监督学习,主题模型)